无论你是数据科学家、分析师还是工程师,Pandas 都能帮助你轻松应对各种数据处理任务:
一维带标签的数组,可以存储任意数据类型(整数、浮点数、字符串、Python 对象等)。每个元素都有一个索引。
import pandas as pd
s = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
print(s)
二维表格型数据结构,包含行索引和列标签,可以看作是多列 Series 的容器。日常分析最常用的对象。
df = pd.DataFrame({
'Name': ['Alice', 'Bob'],
'Age': [25, 30],
'City': ['NYC', 'LA']
})
print(df)
下面通过几个简单的代码片段,感受 Pandas 的基础操作:
import pandas as pd
# 不指定索引,默认从 0 开始
s1 = pd.Series([100, 200, 300])
print(s1)
# 输出:
# 0 100
# 1 200
# 2 300
# dtype: int64
# 自定义索引
s2 = pd.Series([1.2, 3.4, 5.6], index=['x', 'y', 'z'])
print(s2['y']) # 3.4
# 从字典创建
data = {
'product': ['Laptop', 'Mouse', 'Monitor'],
'price': [1200, 25, 300],
'quantity': [5, 50, 10]
}
df = pd.DataFrame(data)
print(df)
# 查看前两行
print(df.head(2))
# 查看列的数据类型
print(df.dtypes)
# 计算价格的平均值
avg_price = df['price'].mean()
print(f"平均价格: {avg_price}")
# 筛选价格大于 100 的产品
expensive = df[df['price'] > 100]
print(expensive)
pip install pandas 或 conda install pandas。
本教程将从基础数据结构讲起,逐步深入到数据清洗、分组聚合、时间序列、数据可视化等内容。左侧边栏提供了完整的目录结构,你可以按顺序学习,也可以直接跳转感兴趣的主题。