您的位置:首页 > 文旅 > 美景 > 中国建行官方网站_市场营销方案范文5篇_百度百度一下你就知道主页_社区建站网站系统

中国建行官方网站_市场营销方案范文5篇_百度百度一下你就知道主页_社区建站网站系统

2024/12/23 6:08:38 来源:https://blog.csdn.net/weixin_52642840/article/details/143500180  浏览:    关键词:中国建行官方网站_市场营销方案范文5篇_百度百度一下你就知道主页_社区建站网站系统
中国建行官方网站_市场营销方案范文5篇_百度百度一下你就知道主页_社区建站网站系统

1、spark中的task是以线程实现的,而mapreduce中是以进程实现的。

进程的频繁启动和停止会增加资源的消耗。

2、spark中支持DAG,而mapreduce不支持DAG

DAG的使用:为什么支持DAG会更加高效

        1)、在DAG图中,会将一个job划分为不同的stage,同一个stage会在内存中进行转换,而不同stage之间需要进行shuffle过程,否则对于spark来说,他并不知道哪一个RDD之间的转换需要使用磁盘。——即第三个区别

        2)、spark的lazy模式(惰性求值),就是基于DAG图实现的,因为DAG图中存放了task中的血缘关系。

        lazy模式的优点:

                1、可以减少数据传输和计算开销,例如,多个转换操作可以在一次计算中并行执行,避免了多次中间结果的生成和传输。

                2、优化执行计划:Spark 可以在执行时分析整个计算图,并应用各种优化技术,如 管道化(Pipelining) 和 合并操作(Operation Fusion)

        3) spark的宽窄依赖和DAG的相互配合可以在某一个分区的数据丢失时,快速恢复,不需要从头开始。

        若在一个stage中的有某一个分区的数据丢失,可以通过DAG和窄依赖(父RDD分区的数据只传递给子RDD的某一个分区)对该分区的数据进行回溯,当然若是跨了多个stage,就麻烦了。

3、spark主要是基于一个内存的引擎,而mapreduce是基于磁盘的。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com