Pandas 简介 v2.0+

Pandas 是 Python 数据分析的基石,提供了快速、灵活、直观的数据结构,专为处理表格数据(类似于 Excel 或 SQL 表)而设计。它基于 NumPy 构建,让数据清洗、转换、分析变得简单高效。

📌 为什么选择 Pandas?

无论你是数据科学家、分析师还是工程师,Pandas 都能帮助你轻松应对各种数据处理任务:

  • 直观的 DataFrameSeries 数据结构,类似于内存中的电子表格。
  • 强大的 I/O 功能:读写 CSV、Excel、JSON、SQL、Parquet 等十余种格式。
  • 内置数据清洗、缺失值处理、数据重塑、合并与连接操作。
  • 基于标签的切片、索引、筛选,以及高效的分组聚合。
  • 与 Matplotlib、Seaborn 等可视化库无缝集成,快速绘图。

🧱 核心数据结构

Series(系列)

一维带标签的数组,可以存储任意数据类型(整数、浮点数、字符串、Python 对象等)。每个元素都有一个索引。

import pandas as pd
s = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
print(s)
DataFrame(数据框)

二维表格型数据结构,包含行索引和列标签,可以看作是多列 Series 的容器。日常分析最常用的对象。

df = pd.DataFrame({
    'Name': ['Alice', 'Bob'],
    'Age': [25, 30],
    'City': ['NYC', 'LA']
})
print(df)

⚡ 快速上手示例

下面通过几个简单的代码片段,感受 Pandas 的基础操作:

📦 创建 Series

import pandas as pd

# 不指定索引,默认从 0 开始
s1 = pd.Series([100, 200, 300])
print(s1)
# 输出:
# 0    100
# 1    200
# 2    300
# dtype: int64

# 自定义索引
s2 = pd.Series([1.2, 3.4, 5.6], index=['x', 'y', 'z'])
print(s2['y'])   # 3.4

🧩 创建 DataFrame

# 从字典创建
data = {
    'product': ['Laptop', 'Mouse', 'Monitor'],
    'price': [1200, 25, 300],
    'quantity': [5, 50, 10]
}
df = pd.DataFrame(data)
print(df)

# 查看前两行
print(df.head(2))

# 查看列的数据类型
print(df.dtypes)

🔍 简单分析

# 计算价格的平均值
avg_price = df['price'].mean()
print(f"平均价格: {avg_price}")

# 筛选价格大于 100 的产品
expensive = df[df['price'] > 100]
print(expensive)

📚 学习路径建议

本教程将从基础数据结构讲起,逐步深入到数据清洗、分组聚合、时间序列、数据可视化等内容。左侧边栏提供了完整的目录结构,你可以按顺序学习,也可以直接跳转感兴趣的主题。