MapReduce和Apache Spark的区别
MapReduce 是一个框架,利用这个框架,我们可以编写函数,以可靠的方式在商品硬件的巨大集群上并行处理大量数据。它也是一种处理方法和一种主要基于java的分布式计算的应用模式。MapReduce算法包含了两个必要的任务,特别是Map和Reduce。Map采取一组记录,并将其转换为每一个其他的数据集,其中个别因素被分解为以键值对存在的图元。另外,它还有助于最小化任务,它将Map的输出作为一个入口,并将这些统计图元组合成一个较小的图元集。正如标题MapReduce的顺序所暗示的那样,减少任务是在地图工作之后持续进行的。
Apache Spark 是一个数据处理框架,可以在非常庞大的信息集上快速运行处理任务,还可以将信息处理任务分布在几台计算机上,既可以独立完成,也可以与其他分配的计算工具串联。这两个功能是海量信息和机器学习领域的关键,这些领域需要调集大量的计算能量来压缩大量的信息存储。此外,Spark还通过一个易于使用的API将这些职责的一些编程负担从开发人员的肩上卸下,该API将分布式计算和大型信息处理的大量繁琐工作抽象化。
MapReduce和Spark之间的区别 –