R语言数据写入写出
一、数据写入
比起在R中手动自建数据集,我们更为常用的情景是导入外部数据进行分析,所以就有了我们今天的话题:用R语言读取外部数据。
读数前基本操作:
1、查看当前工作路径:
getwd()
[1] "D:/Documents"
2、设置新的工作路径:
setwd("E:/R/Kaggle")
注意:设置工作路径时,要使用"/"符号或者"\\"进行层级分隔,而不是默认的\符号,在R中,\符号为转义符,有特定的用途。
将需要读取的数据集放在新的工作路径下,在读取和回写时,不用再指定文件路径,简化代码。
1、读取文本数据
read.table()函数
该函数为基础包自带函数,可以读取文本数据、csv格式数据。
基本格式:
read.table(file, header = FALSE, sep ="",skip = 0,
row.names, col.names,
fileEncoding = "", encoding = "unknown"...)
#file为待读取数据集
#header = FALSE表示R默认数据集第一行不是表头,往往需要设置为header = TRUE。
# sep =""表示默认数据分隔符为空格,文本数据就是以空格进行分隔的,csv格式数据则是以“,”分隔的。
#skip=0表示默认不跳过任何数据行,如果设置为skip=5,则表示跳过前5行。
可以用nrow(dataname)查看数据行数,ncol(dataname)查看列数。
#row.names表示行名,默认为不做设置,需要的情况下可以为每行数据设置行名,格式为:
row.names=c(name1,name2,...)
#col.names同理,为设置数据列名,格式:col.names=c(name1,name2,...)
#fileEncoding = ""默认文件编码方式为空,在读取数据中包含中文的时候,记得将编码方式改为UTF-8,不然会出现乱码等异常情况。
#encoding = "unknown"默认编码方式为未知,在读取中文数据集时需要设置为UTF-8。
(1)train<-read.table("train.txt",sep="",header = TRUE,stringsAsFactors = FALSE)
2、读取Excel数据
Excel数据主要由xls格式、xlsx格式两种,可以使用readxl包的read_excel()函数进行读取。
基本格式:
read_excel(path, sheet = NULL, range = NULL, col_names = TRUE,