『』数据科学家和软件工程师都在用的pandas函数有哪些?
全文共2758字 , 预计学习时长13分钟
本文插图
图源:unsplash
软件工程师该像是索引 , 而不是教科书 。 你无法记住所有内容 , 但得知道如何快速查找它们 。
能够快速查找和使用函数让我们在编写代码时可以达到一定的流畅程度 。 因此笔者创建了这份自己每天都在使用的、用于构建网络应用程序和机器学习模型的函数备忘清单 。
它不算详尽 , 但包含了笔者最常使用的函数、示例 , 以及该何时使用的有效见解 。
1.安装
如果想自己运行这些示例 , 请从Kaggle下载Anime推荐数据集 , 将其解压缩并放入与jupyter notebook相同的文件夹中 。
接下来运行这些指令 , 应该能重复得出以下任一函数的结果 。
import pandas as pd import numpy as npanime =pd.read_csv('anime-recommendations-database/anime.csv') rating = pd.read_csv('anime-recommendations-database/rating.csv')anime_modified= anime.set_index('name')
本文插图
图源:unsplash
2.输入
输入CSV(逗号分隔值)
将CSV直接转换为数据框 。 有时CSV载入数据还需要指定一种编码(即:encoding='ISO-8859–1') 。 如果数据框包含不可读的字符 , 应首先尝试上述方法 。
对于表格文件 , 存在一个叫做pd.read_excel的类似函数 。
anime =pd.read_csv('anime-recommendations-database/anime.csv')
本文插图
根据输入数据构建数据框
这在手动示例化简单数据时十分有用 , 方便查看这些数据运行时如何变化 。
df = pd.DataFrame([[1,'Bob','Builder'], [2,'Sally', 'Baker'], [3,'Scott', 'CandleStick Maker']], columns=['id','name', 'occupation'])
本文插图
df.head()
复制数据框
想保留原始副本同时对数据框进行更改 , 复制数据框很有用 。 在输入数据框后立即对其进行复制是很好的做法 。
anime_copy =anime.copy(deep=True)
本文插图
3.查看和检验
获取顶部或底部的n项记录
显示数据框中的前n项记录 。 笔者通常在notebook中的某个位置打印数据框的顶部记录 , 以便在忘记其中的内容时可以返回来参考 。
anime.head(3) rating.tail(1)
本文插图
本文插图
计算行数
这本身不是pandas函数 , 而是len()函数对行进行计数 , 并将其保存到变量中 , 在其他地方使用 。
len(df) #=> 3
计算唯一行
计算一列中的唯一值 。
len(ratings['user_id'].unique())
获取数据框信息
对于获取一些常规信息(如标题、值的数量和按列的数据类型)很有用 。 df.dtypes是一个类似但实用性低的函数 , 仅提供列数据类型 。
anime.info()
本文插图
获取统计数据
如果数据框具有很多数值 , 获取统计数据非常有用 。 了解评级列的平均值 , 最小值和最大值 , 可以大致了解数据框 。
推荐阅读
- []重庆移动-亚德高等级数据中心落户西永微电园
- 平台■在线视频平台大数据杀熟成惯例 买VIP就活该被宰?
- 「数据线」手机充电慢?那你需要看看是不是这些地方出了问题
- 大数据:这套绝对是2020年大数据最全面的线路图+实战项目+源码限时赠你
- 【Ace】原创 用实际数据发声,OPPO Ace2的这些亮点你要知道
- #颜七公子#TunesKit iPhone Data Recovery for Mac(iPhone数据恢复工具)
- 『挖贝网』网达软件2019年净利3439.68万增长330.28%行业客户拓展
- 邓锄头挖科技■关于IDC数据中心的“容量管理”的目标和3种子业务场景
- 「天文」科学家制造人造彗星,获取DNA成分
- 技术@为楼宇安上“智慧大脑”,翠苑街道开创“一平台”数据互通模式