1. 什么是数据倾斜?
在分布式计算场景下,大量的数据集中在某一个节点而导致一个任务的执行时间变长。而大量的节点只处理了小部分的数据,大数据组件处理海量数据的特点就是不患多,而患不均。
2. 怎么发现任务出现了数据倾斜现象
在yarn上可以查看task的执行情况,如果一个阶段中有些task很快执行完了,有些task迟迟无法结束或者运行时间减少,则大概率出现了数据倾斜的现象。
3. 描述1个数据倾斜的情景,针对这个情景给出解决方案
情景1:select count(distinct user_id) from t_user;
为什么:如果存在大量相同的user_id,而在count的时候会因为大量相同的user_id集中在同一个reducetask中,导致数据倾斜
解决方案:
1) 设置提高reduceTask的个数
2) select count(*) from(select sex from t_person group by sex) t1;
情景2:在group by分组的时候,某个key过多;
解决方案:将 key 打散
-
给 key 增加随机前缀
在进行
group by
之前,先给每个user_id
增加一个随机前缀,使得原本相同的user_id
被打散到不同的分组中。 -
按带前缀的 key 进行分组
对带有随机前缀的
user_id
进行分组和聚合。 -
去掉前缀后再分组
在第一步的基础上,去掉前缀,再进行一次分组和聚合,得到最终的结果。