Pandas 28种常用方法使用总结 _Pandas

Pandas库专为数据分析而设计，它是使Python/ target=_blank class=infotextkey>Python成为强大而高效的数据分析环境的重要因素。它提供了多种数据结构和方法来处理和分析数据。

文章插图

下面是一些Pandas常用方法的使用总结。
1. 创建数据框使用read_csv()或read_Excel()方法读取数据文件，也可以使用DataFrame()方法从列表或字典创建数据帧。例如，通过以下方式创建数据框：

import pandas as pddf = pd.read_csv('example.csv')# ordf = pd.read_excel('example.xlsx')# ordf = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'], 'age': [25, 32, 18]})

2. 查看数据使用head()和tAIl()方法查看前几行或后几行数据。可以使用describe()方法获取数据的描述性统计信息，例如最大值、最小值、平均值和标准差等。

# 查看前5行数据print(df.head())# 查看后5行数据print(df.tail())# 查看数据的描述性统计信息print(df.describe())

3. 索引和选择数据可以使用loc[]和iloc[]方法对数据进行索引和选择。loc[]方法基于标签选择数据，而iloc[]方法基于行和列的位置选择数据，例如：
# 选择行和列：df.loc[0, 'name']df.iloc[0, 1]# 选择行：df.loc[0]df.iloc[0]# 选择列：df['name']4. 操作数据Pandas提供了很多数据操作方法，例如，可以使用mean()方法计算列的平均值，使用corr()方法计算列之间相关性并使用drop()方法删除某些列或行。

# 计算列的平均值df['age'].mean()# 计算列之间的相关性df.corr()# 删除某些列或行df.drop('age', axis=1)df.drop(0)

5. 处理缺失值Pandas提供了方法来处理缺失值，例如可以使用isnull()检查失值并使用fillna()方法填充缺失值。
# 检查缺失值df.isnull()# 填充缺失值df.fillna(0)6. 分组和聚合可以使用groupby()方法将数据按照某些列进行分组，然后使用聚合函数计算列的值。
# 分组和聚合df.groupby('name').mean()7. 绘制图表Pandas提供了很多绘制图表的函数，例如plot()方法可以绘制线图、散点图和条形图等。

# 绘制线图df.plot(x='name', y='age')# 绘制散点图df.plot.scatter(x='name', y='age')# 绘制条形图df.plot.bar(x='name', y='age')

8. 排序和排名使用sort_values()方法对数据进行排序，可以按照某一列的值进行升序或降序排列。使用rank()方法进行排名，将所有的数据按照某一列的值进行排名，例如：

# 按age列进行升序排列df.sort_values('age', ascending=True)# 按age列进行降序排列df.sort_values('age', ascending=False)# 对age进行排名df['rank'] = df['age'].rank(method='dense')

9. 数据重塑使用pivot()和melt()方法进行数据重塑。pivot()方法可以将长格式的数据框转化为宽格式，而melt()方法可以将宽格式的数据框转化为长格式，例如：

# 将长格式的数据框转化为宽格式df.pivot(index='name', columns='subject', values='score')# 将宽格式的数据框转化为长格式df.melt(id_vars=['name', 'age'], var_name='subject', value_name='score')

10. 时间序列数据处理Pandas提供了多种方法来处理时间序列数据，例如可以使用to_datetime()方法将字符串转化为日期格式，使用resample()方法对时间序列进行重采样，例如：

# 将字符串转化为日期格式df['date'] = pd.to_datetime(df['date'], formatYmd')# 对时间序列进行重采样df.resample('D').sum()

文章插图

11. 缩减内存占用【Pandas 28种常用方法使用总结】Pandas中如果数据集很大，占用的内存可能也会很大，可以使用astype()方法将一些整型或浮点型的列转化为较小的数据类型来减少内存占用，例如：

# 将age列从int64转化为int32df['age'] =['age'].astype('int32')# 将score列从float64转化为float32df['score'] = df['score'].astype('float32')

12. 数据分析和统计Pandas提供了多种方法来进行数据析和统计，例如可以使用value_counts()方法计算某一列中数值出现的次数，使用cut()方法对一维的连续数据进行离散化，例如：

# 计算name列中每个值出现的次数df['name'].value_counts()# 对age列进行等距离分割df['age_cut'] = pd.cut(df['age'], 3)

13. 文本数据处理Pandas提供了多种方法来处理文本数据，例如可以使用str()方法来访问字符串中的子串或使用正则表达式来匹配字符串，例如：

Pandas 28种常用方法使用总结

推荐阅读

红色■一堂特殊爱国教育课：山东政法学院开展茂岭山红色课堂实践教学

北晚新视觉网|美国单日新增确诊已超8万！特朗普：福奇不可信

游侠网州长施瓦辛格将于本月加盟《铁血战士：狩猎场》

如何杀入禁魔监狱入口监禁攻略

缅甸中文君：警方突击解救，邻国男子在缅甸边境遭人软禁

思考小哥|却能被称为三国第一，只因这项纪录太强！，他没斩杀过名将

侠女看世界|隔三差五煮一锅，香辣的味道让你停不下来，口感筋道的早餐面食

四川阿坝小金现被困中国大鲵已被放归大自然

女飞行员|35款App存个人信息收集使用问题！航旅纵横、你我贷借款在列

『娱乐小队』精致、小巧：追求时尚的本田CB4X概念摩托车

「宝宝」宝宝易腹泻试试这些方面解决

运动|4个减肥误区，如果不纠正，身材很难瘦下来！

水韵康旅通|说到盛世美颜，你最先想到的是谁？

新华视点微博|柏林驾车“有目的袭击”致6人受伤，调查中发现牵扯宗教背景线索

业余足球联赛怎样赢利

田径大本营|今天31岁啦！，中国男子田径『第三古老』的NR

饵料|寒露将至，这样调整渔获翻番不是梦

郭德纲|混不上北京户口的郭德纲，举家搬师回天津，440万购房陪读8岁幼子

大运河畔的京津冀非遗“盛宴”：老文化新传承

烹饪|煮泡面，最“忌讳”先放面饼，原来一直弄错顺序，难怪油腻又难吃