sortByKey
函数说明
join
函数说明
leftOuterJoin
函数说明
cogroup
函数说明
RDD行动算子:
行动算子就是会触发action的算子,触发action的含义就是真正的计算数据。
reduce
函数说明
collect
函数说明
foreach
函数说明
count
函数说明
first
函数说明
take
函数说明
takeOrdered
函数说明
aggregate
函数说明
fold
函数说明
countByKey
➢ 函数说明
save 相关算子
函数说明
累加器
实现原理
累加器用来把 Executor 端变量信息聚合到 Driver 端。在 Driver 程序中定义的变量,在
Executor 端的每个 Task 都会得到这个变量的一份新的副本,每个 task 更新这些副本的值后,传回 Driver 端进行 merge。
广播变量
实现原理
广播变量用来高效分发较大的对象。向所有工作节点发送一个较大的只读值,以供一个
或多个 Spark 操作使用。比如,如果你的应用需要向所有节点发送一个较大的只读查询表,
广播变量用起来都很顺手。在多个并行操作中使用同一个变量,但是 Spark 会为每个任务
分别发送。