分布式计算框架,基于磁盘计算,适合大规模静态数据的批处理 需要自己编写map函数和reduce函数 原理

  • 数据切片,每个小片进行实际处理,得到结果,给每个所需结果给key和value(map)
  • 根据key排序,相同key合并(reduce)