『』数据科学家和软件工程师都在用的pandas函数有哪些?( 二 )


anime.describe()
『』数据科学家和软件工程师都在用的pandas函数有哪些?
本文插图

获取值总和
获取特定列的值总和 。
anime.type.value_counts()
『』数据科学家和软件工程师都在用的pandas函数有哪些?
本文插图

4.输出
保存为CSV格式
这将转储到与notebook相同的目录 。 笔者只保存下面的前10行 , 但读者不需要这样做 。 同样 , 也可使用df.to_excel() 函数 , 将表格文件保存为CSV格式 。
rating[:10].to_csv('saved_ratings.csv',index=False)
5.选取
获取列的值清单或一系列值
需要将列中的值放入X和y变量中以适应机器学习模型时 , 此方法有效 。
anime['genre'].tolist() anime['genre']
『』数据科学家和软件工程师都在用的pandas函数有哪些?
本文插图

anime[‘genre’].tolist()
『』数据科学家和软件工程师都在用的pandas函数有哪些?
本文插图

anime[‘genre’]
获取索引值列表

『』数据科学家和软件工程师都在用的pandas函数有哪些?
本文插图

图源:unsplash
通过索引创建数值列表 。 请注意 , 这里使用了anime_modified数据框 , 因为索引值更加有趣 。
anime_modified.index.tolist()
『』数据科学家和软件工程师都在用的pandas函数有哪些?
本文插图

获取列值列表
anime.columns.tolist()
『』数据科学家和软件工程师都在用的pandas函数有哪些?
本文插图

6.添加/删除
用设置值附加新列
偶尔 , 当测试集和训练集在两个单独的数据框中 , 并想在组合它们之前分别标记出行与集的对应关系时 , 笔者会这样做 。
anime['train set'] = True
从一部分列中创建新的数据框
此方法用于只想保留巨型数据框中的几列并且不想指定删除列时 。
anime[['name','episodes']]
『』数据科学家和软件工程师都在用的pandas函数有哪些?
本文插图

删除指定列
删除指定列用于仅需删除几列时 。 否则 , 写出全部内容可能会很乏味 , 笔者更喜欢前者 , 删除指定列 。
anime.drop(['anime_id', 'genre','members'], axis=1).head()
『』数据科学家和软件工程师都在用的pandas函数有哪些?
本文插图

添加其他行总和的一行
因其更易于查看 , 故在此处手动创建一个小型数据框 。 这里的有趣之处在于 , df.sum(axis=0)将值添加到各行或各列中 。
计算总和或平均值时 , 采用同样的逻辑 , 如:
df.mean(axis=0). df = pd.DataFrame([[1,'Bob',8000], [2,'Sally', 9000], [3,'Scott', 20]],columns=['id','name', 'power level'])df.append(df.sum(axis=0),ignore_index=True)
『』数据科学家和软件工程师都在用的pandas函数有哪些?
本文插图

7.合并
串联两个数据框
用于同行有两个数据框 , 并想将其组合的情况 。 这里将数据框分成两部分 , 然后重新将它们添加在一起 。

『』数据科学家和软件工程师都在用的pandas函数有哪些?
本文插图

图源:unsplash
df1 = anime[0:2]df2 =anime[2:4]pd.concat([df1, df2], ignore_index=True)
『』数据科学家和软件工程师都在用的pandas函数有哪些?


推荐阅读