Pandas
Pandas 是基于 NumPy 构建的数据分析库,提供了高效、灵活的数据结构,让数据处理和分析变得更加简单。
推荐先在官方文档浏览API目录,可以快速这个这个框架的应用范围有个了解。再向下阅读常用的API使用方法。
Pandas 的核心数据结构:
- Series:一维数据结构,带标签的数组(类似于 Excel 的一列)
- DataFrame:二维数据结构,带标签的表格(类似于 Excel 表格或 SQL 表)
Pandas 的核心优势:
- 灵活的数据结构:轻松处理各种类型的数据
- 强大的数据操作:筛选、分组、合并、透视等
- 时间序列支持:内置日期时间处理功能
- 缺失值处理:方便的缺失数据处理方法
- 数据IO:支持 CSV、Excel、SQL、JSON 等格式
tip
数据结构关系:
- Series = 一维数组 + 行索引
- DataFrame = 多个 Series 组成的二维表 + 行索引 + 列索引
- DataFrame 可以看作是 Series 的字典(共用行索引)
# Series:一列数据
s = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
# DataFrame:多列数据
df = pd.DataFrame({
'col1': [1, 2, 3],
'col2': [4, 5, 6]
}, index=['a', 'b', 'c'])