Pandas 简介 v2.0+

Pandas 是 Python 数据分析的基石，提供了快速、灵活、直观的数据结构，专为处理表格数据（类似于 Excel 或 SQL 表）而设计。它基于 NumPy 构建，让数据清洗、转换、分析变得简单高效。

📌 为什么选择 Pandas？

无论你是数据科学家、分析师还是工程师，Pandas 都能帮助你轻松应对各种数据处理任务：

直观的 DataFrame 和 Series 数据结构，类似于内存中的电子表格。
强大的 I/O 功能：读写 CSV、Excel、JSON、SQL、Parquet 等十余种格式。
内置数据清洗、缺失值处理、数据重塑、合并与连接操作。
基于标签的切片、索引、筛选，以及高效的分组聚合。
与 Matplotlib、Seaborn 等可视化库无缝集成，快速绘图。

🧱 核心数据结构

Series（系列）

一维带标签的数组，可以存储任意数据类型（整数、浮点数、字符串、Python 对象等）。每个元素都有一个索引。

import pandas as pd
s = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
print(s)

DataFrame（数据框）

二维表格型数据结构，包含行索引和列标签，可以看作是多列 Series 的容器。日常分析最常用的对象。

df = pd.DataFrame({
    'Name': ['Alice', 'Bob'],
    'Age': [25, 30],
    'City': ['NYC', 'LA']
})
print(df)

⚡ 快速上手示例

下面通过几个简单的代码片段，感受 Pandas 的基础操作：

📦 创建 Series

import pandas as pd

# 不指定索引，默认从 0 开始
s1 = pd.Series([100, 200, 300])
print(s1)
# 输出:
# 0    100
# 1    200
# 2    300
# dtype: int64

# 自定义索引
s2 = pd.Series([1.2, 3.4, 5.6], index=['x', 'y', 'z'])
print(s2['y'])   # 3.4

🧩 创建 DataFrame

# 从字典创建
data = {
    'product': ['Laptop', 'Mouse', 'Monitor'],
    'price': [1200, 25, 300],
    'quantity': [5, 50, 10]
}
df = pd.DataFrame(data)
print(df)

# 查看前两行
print(df.head(2))

# 查看列的数据类型
print(df.dtypes)

🔍 简单分析

# 计算价格的平均值
avg_price = df['price'].mean()
print(f"平均价格: {avg_price}")

# 筛选价格大于 100 的产品
expensive = df[df['price'] > 100]
print(expensive)

提示： 以上代码假设你已经安装了 Pandas。如果尚未安装，可以在终端中执行 pip install pandas 或 conda install pandas。

📚 学习路径建议

本教程将从基础数据结构讲起，逐步深入到数据清洗、分组聚合、时间序列、数据可视化等内容。左侧边栏提供了完整的目录结构，你可以按顺序学习，也可以直接跳转感兴趣的主题。

已是第一章下一章: 安装与配置

Pandas教程