R语言数据写入写出

R语言数据写入写出

一、数据写入

比起在R中手动自建数据集,我们更为常用的情景是导入外部数据进行分析,所以就有了我们今天的话题:用R语言读取外部数据。

读数前基本操作:

1、查看当前工作路径:

getwd()
[1] "D:/Documents"

2、设置新的工作路径:

setwd("E:/R/Kaggle")

注意:设置工作路径时,要使用"/"符号或者"\\"进行层级分隔,而不是默认的\符号,在R中,\符号为转义符,有特定的用途。

将需要读取的数据集放在新的工作路径下,在读取和回写时,不用再指定文件路径,简化代码。

1、读取文本数据

read.table()函数

该函数为基础包自带函数,可以读取文本数据、csv格式数据。

基本格式:

read.table(file, header = FALSE, sep ="",skip = 0,
 row.names, col.names,
fileEncoding = "", encoding = "unknown"...)

#file为待读取数据集

#header = FALSE表示R默认数据集第一行不是表头,往往需要设置为header = TRUE。

# sep =""表示默认数据分隔符为空格,文本数据就是以空格进行分隔的,csv格式数据则是以“,”分隔的。

#skip=0表示默认不跳过任何数据行,如果设置为skip=5,则表示跳过前5行。

可以用nrow(dataname)查看数据行数,ncol(dataname)查看列数。

#row.names表示行名,默认为不做设置,需要的情况下可以为每行数据设置行名,格式为:

row.names=c(name1,name2,...)

#col.names同理,为设置数据列名,格式:col.names=c(name1,name2,...)

#fileEncoding = ""默认文件编码方式为空,在读取数据中包含中文的时候,记得将编码方式改为UTF-8,不然会出现乱码等异常情况。

#encoding = "unknown"默认编码方式为未知,在读取中文数据集时需要设置为UTF-8。

(1)train<-read.table("train.txt",sep="",header = TRUE,stringsAsFactors = FALSE)


2、读取Excel数据

Excel数据主要由xls格式、xlsx格式两种,可以使用readxl包的read_excel()函数进行读取。

基本格式:

read_excel(path, sheet = NULL, range = NULL, col_names = TRUE,