|手把手教你用R语言读取CSV文件( 二 )


注意 , 数据读取为tbl_df对象 , 它是tbl的扩展 , 也是data.frame的扩展 。 tbl是data.frame的特殊类型 , 它在dplyr包中定义 。 每列的数据类型显示在列名的下面 , 这是个很好的功能 。
readr包有一些对read_delim函数封装(预置分隔符)的辅助函数 , 比如read_csv函数和read_tsv函数 。
02 fread函数
另一个读取大量数据的函数是data.table包的fread函数 。 第一个参数是读取的文件路径或者URL 。 header参数表示文件的第一行是列名 , sep指定分隔符 。 该函数的stringAsFactors参数默认设为FALSE 。
> library(data.table) > theUrltomato3 这里也可以使用head函数查看前几行数据:> head(tomato3)
|手把手教你用R语言读取CSV文件
本文插图

该函数读取速度比read.table函数快 , 结果为data.table对象 。 data.table对象是data.frame的扩展 , 其是data.frame的优化 。
read_delim或者fread函数读取文件都非常快 , 具体使用哪个函数取决于dplyr或者data.table包中哪个更适合数据处理 。
关于作者:贾里德 P. 兰德(Jared P. Lander) , 资深数据专家 , Lander Analytics公司创始人兼CEO , 纽约开放统计编程聚会负责人 , 哥伦比亚大学统计学兼职教授 。 在数据管理、多层次模型、机器学习、广义线性模型、可视化、数据管理和统计计算等多个领域拥有丰富经验 。
本文摘编自《R语言:实用数据分析和可视化技术》(原书第2版) , 经出版方授权发布 。
|手把手教你用R语言读取CSV文件
本文插图

延伸阅读《R语言:实用数据分析和可视化技术》
推荐语:本书借鉴数据科学家Jared P. Lander在R语言上丰富的教学经验 , 通过大量实例 , 详细讲解R语言的核心功能 。 对于刚接触统计程序和模型的人 , 本书的内容组织结构使得学习R语言相当简单和直观 。 本书主要介绍R语言中20%的核心功能 , 但是这20%的功能足以让你解决80%的现代数据分析 。


推荐阅读