1. Polars基础教程
关键概念:
- Expression API:用于快速灵活的分析。
- 并行计算:易于实现。
- 惰性模式查询优化:自动进行。
- 流处理:处理超过内存大小的数据集。
导入Polars:
import polars as pl
配置选项设置:
pl.Config.settblrows(6) # 设置打印DataFrame的行数
加载数据:
Polars支持多种数据格式,如CSV、Parquet、Arrow、JSON、Excel和数据库连接。
csvfile = "../data/titanic.csv"
df = pl.readcsv(csvfile)
df.head(3)
2. Polars库介绍
Polars是一个高性能的DataFrame库,用Rust编写,提供了以下特性:
- 高性能:通过Rust编写和矢量化列式处理实现。
- 数据读写支持:支持常见数据文件和云存储。
- 并行处理:自动利用所有可用CPU核心。
- GPU支持:可选在NVIDIA GPUs上运行查询。
安装命令:
pip3 install 'polars[all]'
3. 数据读写操作
DataFrame示例:
df = pl.DataFrame({"idx": [1, 2, 3, 4],"name": ["张三", "李四", "王五", "赵六"],"birthday": [datetime(2009, 5, 1),datetime(2005, 10, 15),datetime(2000, 12, 31),datetime(1995, 6, 15),],"gender": ["男", "男", "男", "女"],"bio": ["好好学习,天天向上", "泰难了", "学习有毛用", "躺平ing"],
})
存储和读取数据:
df.writecsv("data.csv")
df.writeexcel("data.xlsx")
df.writejson("data.json")
df.writeparquet("data.parquet")
df_csv = pl.readcsv("data.csv")
4. Expressions
Polars的核心部分是Expressions,提供了以下模块结构:
- select
- filter
- groupby
- withcolumns
选择列:
print(df.select(pl.col("")))
print(df.select(pl.all()))
print(df.select(pl.col('float','date')))