您的位置：首页 > 汽车 > 时评 > spark全面个人总结（20个面试点）非网文持续更新中

spark全面个人总结（20个面试点）非网文持续更新中

2025/7/6 2:18:15 来源：https://blog.csdn.net/weixin_44702289/article/details/141392777 浏览: 次关键词：spark全面个人总结（20个面试点）非网文持续更新中

1. 请简述Spark的工作原理和架构？

基于RDD，一种数据结构，含数据项、处理函数、血缘。
spark解析任务，生成rdd，并将系列rdd转换成一系列物理计划，然后发送到集群上的各个节点执行。
spark负责管理这些任务，并分配到集群中的各个执行器，利用分区存储副本实现容错

2. Spark与Hadoop MapReduce相比，主要有哪些优势？

速度快（1.基于内存计算 2.spark更灵活，job数更少）
易用性，支持多种编程语言 scala java python R
功能更强大，可以做批处理、准实时处理、机器学习和图计算

3. Spark有哪几种运行模式？请详细解释它们之间的区别。

spark local 、 spark on mesos、spark standalone、 spark on yarn

Local mode: 在本地模式下，spark作业在单个机器上运行，通常用于开发和测试

Standalone: spark使用自己的集群管理器来调度作业

yarn模式：yarn是hadoop的资源管理器，spark可以运行在yarn之上

mesos模型：mesos是一个开源的资源管理器和资源调度器

kubernetes：Kubernetes是一个容器编排平台，Spark可以利用Kubernetes来部署和运行

4. Spark的RDD（弹性分布式数据集）是什么？它有哪些特性？

rdd：抽象数据结构，也是spark最小的计算单元，含数据分区、数据项、转换函数、rdd血缘、（但并不会存储数据)

特性：

rdd有多个分区构成
对rdd的每个分区做计算
rdd之间有依赖关系，可以溯

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

最新新闻

热搜词

2023第十四届蓝桥杯大赛软件赛省赛C/C++ 大学 B 组(真题题解)（C++/Java题解） ML 聚类算法 dbscan|| OPTICS 数据赋能兴业惠民 | 山东省第三届数据应用创新创业大赛潍坊分赛场火热报名中城市道路涉及地铁问题的讨论 Mysql-数据库、安装、登录 [创业之路-249]：《华为流程变革：责权利梳理与流程体系建设》核心内容

声明：本站所有新闻及新闻图片来源于其他网站，如有侵权，请及时联系我们！

客户服务 | 关于我们 | 版权声明

版权所有：

Copyright 2024 尧图网 All Rights Reserved.QQ:809451989