简介
PySpark 是 Apache Spark 的 Python API。它允许您在分布式环境中使用 Python 执行实时、大规模数据处理。PySpark 提供了一个交互式的 PySpark shell,您可以在其中分析数据。
PySpark 将 Python 的易用性与 Apache Spark 的强大功能结合起来,使熟悉 Python 的用户能够处理和分析任意规模的数据。
PySpark 支持 Spark 的所有功能,例如 Spark SQL、DataFrames、结构化流处理、机器学习(MLlib)和 Spark Core。
PySpark 概述
日期:2024年2月24日 版本:master
有用链接:
- Live Notebook
- GitHub
- Issues
- Examples
- Community
快速入门
-
安装 PySpark
- 可以通过 pip 安装 PySpark:
pip install pyspark
- 可以通过 pip 安装 PySpark:
-
启动 PySpark Shell
- 安装完成后,可以通过以下命令启动 PySpark Shell:
pyspark
- 安装完成后,可以通过以下命令启动 PySpark Shell:
-
简单的 DataFrame 操作
from pyspark.sql import SparkSessionspark = SparkSession.builder.appName("example").getOrCreate()# 创建 DataFrame data = [("Alice", 34), ("Bob", 45), ("Cathy", 29)] df = spark.createDataFrame(data, ["Name", "Age"])# 显示 DataFr