分布式计算框架,基于内存计算,速度较快,适合实时数据处理 需要自己编写读取、转换、行动三部分 原理 读取数据 创建弹性分布式数据集(RDD) 惰性求值,等待行动后才开始实际求值 血统信息(Lineage):类似Raid5 行动,触发计算