您的位置：首页 > 健康 > 美食 > Hadoop3：MR程序的数据倾斜问题处理

Hadoop3：MR程序的数据倾斜问题处理

2024/10/6 18:26:44 来源：https://blog.csdn.net/Brave_heart4pzj/article/details/140485659 浏览: 次关键词：Hadoop3：MR程序的数据倾斜问题处理

一、数据倾斜

什么是数据倾斜？
学过Redis集群的都知道数据倾斜这个问题。

就是大量数据，分配不均匀的现象。

数据频率倾斜——某一个区域的数据量要远远大于其他区域。
数据大小倾斜——部分记录的大小远远大于平均值。
如下图的一个案例：
所有进程都已经完成，MR程序完成度达到99%，只剩下2个Reduce程序还在运行。
在这里插入图片描述

1、首先检查是否是空值过多造成的数据倾斜
生产环境，可以直接过滤掉空值；如果想保留空值，就自定义分区，将空值加随机数打散。最后再二次聚合。
2、能在map阶段提前处理，最好先在Map阶段处理。如：Combiner、MapJoin
3、设置多个reduce个数。

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

声明：本站所有新闻及新闻图片来源于其他网站，如有侵权，请及时联系我们！