作者：cjh

MapReduce和Apache Spark的区别

1年前 ⋅ 0

MapReduce 是一个框架，利用这个框架，我们可以编写函数，以可靠的方式在商品硬件的巨大集群上并行处理大量数据。它也是一种处理方法和一种主要基于java的分布式计算的应用模式。MapReduce算法包含了两个必要的任务，特别是Map和Reduce。Map采取一组记录，并将其转换为每一个其他的数据集，其中个别因素被分解为以键值对存在的图元。另外，它还有助于最小化任务，它将Map的输出作为一个入口，并将这些统计图元组合成一个较小的图元集。正如标题MapReduce的顺序所暗示的那样，减少任务是在地图工作之后持续进行的。

Apache Spark 是一个数据处理框架，可以在非常庞大的信息集上快速运行处理任务，还可以将信息处理任务分布在几台计算机上，既可以独立完成，也可以与其他分配的计算工具串联。这两个功能是海量信息和机器学习领域的关键，这些领域需要调集大量的计算能量来压缩大量的信息存储。此外，Spark还通过一个易于使用的API将这些职责的一些编程负担从开发人员的肩上卸下，该API将分布式计算和大型信息处理的大量繁琐工作抽象化。

MapReduce和Spark之间的区别 –

微信截图_20230130162432.png