分布式计算框架,基于内存计算,速度较快,适合实时数据处理 需要自己编写读取、转换、行动三部分 原理

  • 读取数据
  • 创建弹性分布式数据集(RDD)
    • 惰性求值,等待行动后才开始实际求值
    • 血统信息(Lineage):类似Raid5
  • 行动,触发计算