R数据处理|data.table篇（三）

Dwzb

统计专业学生

本文为data.table包介绍最后一篇，前两篇链接如下

本文主要讲解data.table包中一些比较不常用的函数，还有data.table包高效的深层原理。下面是本文目录

其他函数
改进了的函数
options设置
性能之Secondary indices and auto indexing
性能之fast binary search
浅复制和深复制(shallow vs deep copy)
by reference

其他函数

具体举例子讲述以下函数

copy
setnames
setDT  setDF
rleid rowid
tables
tstrsplit

copy 复制一个数据框

name1 <- c("Bob","Mary","Jane","Kim")
name2 <- c("Bob","Mary","Kim","Jane")
weight <- c(60,65,45,55)
height <- c(170,165,140,135)
birth <- c("1990-1","1980-2","1995-5","1996-4")
accept <- c("no","ok","ok","no")
library(data.table)
dft <- data.table(name1,weight,height,accept)
dtt <- copy(dft)

这种复制不同于直接用 <- 赋值，在本专题的后面我会专门讲一下R语言的深复制

setnames 修改列名

setnames(dtt,letters[1:4])
colnames(dtt)<-letters[2:5] # 也可以实现列名的修改
setnames(dtt,"c","C") # 修改特定列名
setnames(dtt,1:2,c("m","n"))

setDF 将data.table转化为data.frame

setDF(dtt) 
class(dtt) # "data.frame"
# setDT 将data.frame转化为data.table
setDT(dtt)
class(dtt) # "data.table" "data.frame"

rleid

# 可以接在by后面，每次连续作为一组
dft = data.table(x=rep(c("b","a","c"),each=3), v=c(1,1,1,2,2,1,1,2,2), y=c(1,3,6), a=1:9, b=9:1)
rleid(dft$v) # 返回一个和原向量等长的向量，值与其一一对应。值从1开始，原向量从头往后看，值不变则仍为1，变一次加1
dft[, .N, by=rleid(v)] # 根据上面形成的向量分组（每次连续相同的值为一组）

rowid

一个组合出现第几次就显示为几

DT = data.table(x=c(20,10,10,30,30,20), y=c("a", "a", "a", "b", "b", "b"), z=1:6)
rowid(DT$x) # 1,1,2,1,2,2
rowidv(DT, cols="x") # 同上
rowid(DT$x, prefix="group") # 数字前面加"group"
# 返回  "group1" "group1" "group2" "group1" "group2" "group2"
rowid(DT$x, DT$y) # 多列组合看重复
# 返回1,1,2,1,2,1
rowidv(DT, cols=c("x","y")) # 同上
DT[, .(N=seq_len(.N)), by=.(x,y)]$N # 上面相当于做了这样的事
dcast(DT, x ~ rowid(x, prefix="group"), value.var="z") # 将x为10的两个z值放在同一行，x为20的放在同一行....

tables

tables() # 返回当前所有的datatable,并展示数据集行列数、大小、列名、key等信息

tstrsplit
看过本专题前面讲dplyr和tidyr包的读者可能还记得tidyr包中的那个将日期拆分成年月日的函数，在data.table包中，我们可以使用一个有趣的字符串处理函数来实现相同的功能

name <- 1:3
dates <- c("2016-3-4","2016-3-14","2016-3-24")
nd <- data.table(name,dates)
strsplit(dates,"-")
tstrsplit(dates,"-") # 好像把strsplit得到的结果转置了一样
nd[,c("year","month","day"):=tstrsplit(dates,"-")] # 实现拆分

改进了的函数

%chin%替代了%in%
fsort替代了sort
chmatch替代了match，两个参数返回和前者等长的向量，是前者每一个元素在后者中的索引
chorder或者chgroup代替order，返回一个向量，排列顺序为：最小值在向量中的索引，第二小的...
duplicated替代duplicated
unique替代unique,另有uniqueN直接计算去重之后的个数

上面改进是功能相同，只是运行速度有所提高。下面列举的函数是不仅在运行速度上，而且在功能上也根据data.table包的特性做了一些增强

集合操作函数

增加了all参数，控制重复值。基础函数只能返回去重之后的结果

函数变化：union intersect setdiff setequal 前面都加了一个f

基础函数作用于两个向量，data.table中函数作用于两个data.table数据框，而且列名需要相同

x <- data.table(a=c(1,2,2,2,3,4,4))
y <- data.table(a=c(2,3,4,4,4,5))
fintersect(x, y)            # 返回相交部分并去重
fintersect(x, y, all=TRUE)  # 相交，保留重复值
fsetdiff(x, y)              # x中有y中没有的，去重
fsetdiff(x, y, all=TRUE)    # 保留重复值
funion(x, y)                # 并集，去重
funion(x, y, all=TRUE)      # 保留重复值
fsetequal(x, y)             # 返回一个F，二者不完全相等

rank

frank比rank函数速度更快，而且增加参数ties.method参数的一种取值”dense”，即当有两个值相等并列第二时，让二者都为2，之后的数排名不是第4，而是3，这样结果数值不会发生跳跃

x = c(2, 1, 4, 5, 3, NA, 4)
frank(x) # 自动将NA当成最大的了
frank(x, na.last=F) # 自动将NA当成最小的
frank(x, na.last="keep") # NA仍然是NA
frank(x, ties.method = "min")
frank(x, ties.method = "dense")
DT = data.table(x, y=c(1, 1, 1, 0, NA, 0, 2))
frank(DT, cols="x")

滞后

shift函数,参数如下

n控制变换阶数
fill控制填充内容
type取"lag"或者"lead"，看去除后面的值向后靠（前面添NA），还是去除前面的值向前靠（后面添NA）

y <- x <- 1:5
xy <- data.table(x,y)
shift(x, n=1, fill=NA, type="lag")
shift(x, n=1:2, fill=0, type="lag")
xy[,(c("a","b")):=shift(.SD,1,0,"lead")][] # 添加两列
xy[,shift(.SD,1,0,"lead",give.names = T)][] # 自动生成名字
shift(xy, n=1, fill=0, type="lag", give.names=T) # 生成list

上下合并数据框

使用rbindlist函数，先将数据框转化为list再进行合并

DT1 = data.table(A=1:3,B=letters[1:3])
DT2 = data.table(A=4:5,B=letters[4:5])
DT3 = data.table(B=letters[4:5],A=4:5)
DT4 = data.table(B=letters[4:5],C=factor(1:2))
l1 = list(DT1,DT2)
l2 = list(DT1,DT3)
l3 = list(DT1,DT4)
rbindlist(l1)
rbindlist(l1,idcol=T) # 多出一列，对数据框分组（来自不同数据框）
rbindlist(l2) # 不同列名直接合并
rbindlist(l2,use.names=T) # 将相同列名的合并在一起
rbindlist(l3) # 不同列名直接合并
rbindlist(l3,fill=T) # 选择相同列名合并，不匹配的填入NA

options设置

在控制台中输入options()会打印出一个list，这是当前的options设置值，比如显示保留几位小数等。加载data.table包之后，这里新增了一些data.table专用的参数，可以用下面的命令查看

ops <- options() # ops就是一个list，参数和值的一一对应
# ops$  这样输入在rstudio中就会自动提示后面的参数
# 由于data.table专用参数都是以datatable为前缀，使用我们输入时可以这样
# ops$datatable.  这样输入提示的会都是以datatable为前缀的参数，当然当你打出da的时候就已经差不多全是data.table的参数了
ops$datatable.print.nrows # 查看这个参数，返回100
getOption("datatable.print.topn") # 也可以这样查看，返回5

我们拿打印行数来举例子，看这样两个参数datatable.print.topn和datatable.print.nrows

datatable.print.topn 当省略输出时输出几行，默认为5
datatable.print.nrows 行数达到多少时开始省略输出

d <- data.table(a=1:200, b=2:201)
d # 200行数据自动只输出前5行和后5行
op <- options(datatable.print.topn=10) # 设置打出前10行和后10行
d # 打出前10行和后10行
options(op) # 恢复默认值5
f <- data.table(a=1:50, b=2:51)
f # 50行全打了出来
op <- options(datatable.print.nrows = 30) # 设置行数超过30行时就省略打出
f # 只打出前5行和后5行
options(op) # 恢复默认值100

下面我们再深入一点讲解options设置的内部运行机制

上面打印的参数设置其实调用了print函数，options里面设置的参数被print函数自动调用

?print.data.table # 可以查看打印data.table的函数的帮助文档，发现函数参数设置如下
print(x,
    topn=getOption("datatable.print.topn"),          # default: 5
    nrows=getOption("datatable.print.nrows"),        # default: 100
    class=getOption("datatable.print.class"),  # default: FALSE
    row.names=getOption("datatable.print.rownames"), # default: TRUE
    quote=FALSE,...)
# 所以我们之前在options里面设置的参数都在这里被调用
# 所以我们也可以直接使用print函数来实现和options设置相同的功能
print(d)
print(d,topn=10)
print(f)
print(f,nrows=30)

性能之Secondary indices and auto indexing

上面我们提到setkey设置键值方便以后提取，但是它会自动按照键将整个数据框排序，这是是非常耗费时间的。我们可以选择用setindex函数省去这部分时间，同时不损失提取效率。

下面我们首先来介绍一下index的创建和查询，以及index和判断提取的关系。

dft <- data.table(name1,weight,height,accept)
setindex(dft, name1) # 设置按照name1列来索引，但不进行排序
names(attributes(dft)) # 多出了属性index
indices(dft) # 查看现有的index，"name1"
setindex(dft,accept) # 增加一个index
indices(dft) # "name1"  "accept"
setindex(dft,NULL) # 去掉index
dft[name1=="Bob"] # 用==判断提取
indices(dft) # 自动生成index为name1
dft[weight==45] # 这样之后就有两个index了
setindex(dft,NULL) # 去掉index
dft[.(60),on="weight"] # 使用on判断提取
indices(dft) # 不会创建index

我们会发现使用==进行提取时就已经自动创建了index，所以一般没有必要提前用setindex去设置

那么创建index有什么好处呢？主要是运行速度上的问题，我们来看一下实例

set.seed(1L)
dt = data.table(x = sample(1e5L, 1e7L, TRUE), y = runif(100L))
print(object.size(dt), units = "Mb") # 114.4 Mb
system.time(ans <- dt[.(988L),on="x"]) # 有一定的时间消耗，多次运行这条命令，实现消耗几乎没有区别
system.time(ans <- dt[x == 989L]) # 时间消耗与使用on基本相同
system.time(ans <- dt[x == 1L]) # 几乎没有时间消耗
system.time(ans <- dt[.(988L),on="x"]) # 这时使用on也不耗费了
system.time(ans <- dt[y == 989L]) # 有较大时间消耗
system.time(ans <- dt[y == 9]) # 几乎没有时间消耗
setindex(dt,NULL)
system.time(ans <- dt[x == 1L]) # 仍有一定的时间消耗
# 看普通数据框
df = data.frame(x = sample(1e5L, 1e7L, TRUE), y = runif(100L))
system.time(ans <- df[df$x == 1L,]) # 时间消耗比较小，但是每次运行时间相同

我们可以看到，使用==提取创建了index耗费了一些时间后，第二次提取就几乎不耗费时间了，而用on提取每次都要创建index。

下面我们来看一下设置index的耗时，和index与key的对比

dt = data.table(x = sample(1e5L, 1e7L, TRUE), y = runif(100L))
head(dt)
system.time(setindex(dt,x)) # 0.28 
setindex(dt,NULL) # 这样删除之后再重新加，时间不变
system.time(setindex(dt,x)) # 0.28 
# setkey
system.time(setkey(dt,x)) # setkey多了排序，时间要长一些，0.72
setkey(dt,NULL)
head(dt) # 即使删除后，依然按照x排序
system.time(setkey(dt,x)) # 因为排序仍然保留，所以再重新加时间缩短了非常多，0.03
system.time(setkey(dt,y)) # 时间还是很多
system.time(setkey(dt,x)) # 因为按y排序，x被打乱了，所以这一次时间也延长了
dt = data.table(x = sample(1e5L, 1e7L, TRUE), y = runif(100L))
system.time(dt[x==2]) # 有一定的时间消耗
setkey(dt,x)
system.time(dt[x==2]) # 几乎不耗费时间
system.time(dt[.(1),on="x"]) # 几乎不耗费时间

总结一下

设置index之后提取速度明显加快的原理是，它将设置的这一列进行了排序，并把结果存储到了index属性之中，日后根据这个新的索引来寻找会快很多。
而设置key则不止将这一列排序，而且把整个数据框都排了个序，因此耗时较长。
无论是设置了index还是key,都可以一次设定，日后提取无忧

我们也可以通过设置options参数来禁止index的使用，主要有两个参数

datatable.auto.index 为F时，使用==不会自动创建index
datatable.use.index 为F时，即使创建了index，也无法提高提取速度

dt = data.table(x = sample(1e5L, 1e7L, TRUE), y = runif(100L))
op <- options(datatable.auto.index = F) # 使用==时不会自动创建index
system.time(ans <- dt[x == 989L]) # 多次运行，每次消耗时间相同
indices(dt) # NULL
setindex(dt,x)
system.time(ans <- dt[x == 989L]) # 特意设置index还是可以不消耗时间
options(op)op <- options(datatable.use.index = F) # 使用==时不会自动创建index
setindex(dt,x)
system.time(ans <- dt[x == 989L]) # 特意设置index也要消耗时间
indices(dt) # 虽然有index:”x”
options(op)

性能之fast binary search

dt = data.table(x = sample(1e5L, 1e7L, TRUE), y = runif(100L))
system.time(dt[x==1&y==0.5])
indices(dt) # NULL,说明使用&连接两个选择无法创建index
setindex(dt,x,y)
indices(dt) "x__y"
system.time(dt[x==1&y==0.5]) # 速度没有改善，所以说Index应该是只能处理单种选择
# 多种同时选择还是要用key
setkey(dt,x,y)
system.time(dt[.(1,0.5)]) # 几乎不耗时

这里解释一下排序之后提取速度变快的原因

在没有排序的时候，匹配x==1，需要生成nrow个逻辑值，从中挑选出为T的打印出来
排序之后，就可以使用二分法来减少匹配次数，大大提高运算速度
计算复杂度从O(n)变成了O(log n)

浅复制和深复制(shallow vs deep copy)

使用R语言基础函数进行数据处理时，常常默认使用的是深复制的方法，当处理数据集较大时，运行速度就会很慢，data.table在一些地方使用了浅复制，极大提高了运行效率。不过浅复制也会有一些副作用，本节后面会进行介绍。

浅复制和深复制的区别

比如我们要修改一个数据框中某一列的值，用R基础函数的[]处理，其实处理之后得到的数据框已经完全不是最初的数据框本身，它是把原有数据框复制出一个完整的备份，再在这个备份上进行修改，修改的过程中，还可能多次复制，这样的复制不仅极大增加了运行时间，同时也非常消耗内存。这就是所谓的深复制。

而data.table在处理的时候，会使用改变后的新值，而其他没改变的内容还是用原来那些，没有重新复制出来使用。虽然也是一个新的数据框,但是只是新创建了一个指针，指向原有的内容。这样不需要把大量数据全部复制一遍，会大大缩短运行时间，这就是浅复制。

而浅复制有一个弊端，就是新数据框合旧数据框都指向同一个内容，只要在一个数据框中把这个内容改变，另外的数据框也会受到影响。这就是copy函数存在的意义，这样深复制一下可以让两个数据框之间互不影响。下面我们用具体的例子来解释

使用函数来判断数据框的复制

R语言中可以用tracemem函数来跟踪一个变量名指向的地址。地址是变量名指向的内容的存放位置，如果改变数据框时地址发生变化，说明在其他位置复制出了一个一模一样的数据框，新的数据框则使用新产生的那个。因为每次复制数据框，都要分配给它一个新的地址来储存，所以我们可以通过地址变化的次数来反映数据框被复制的次数。

tracemem函数作用在一个变量名上，如果这个变量名指向的地址发生改变，就会print出一条信息。

DF <- data.frame(ID = c("b","b","b","a","a","c"), a = 1:6, b = 7:12, c = 13:18)
# 先测试基础函数的复制情况
tracemem(DF) # 打印出此时地址 "<0000000002F25938>"
DF$c <- 18:13 # 修改数据框，打印出三条更改信息，说明这个过程中，数据框被复制了三次
DF$c[DF$ID == "b"] <- 15:13 # 这样改变则复制了四次
untracemem(DF) # 结束检测

接下来我们测试一下data.table

DT <- as.data.table(DF)
tracemem(DT)
DT[,c:=18:13]
DT["b",c:=15:13,on="ID"]
untracemem(DT)

修改的过程中一次信息都没有print出来，说明没有进行过一次深复制，这是data.table处理高效的原因之一。

浅复制的副作用

上面我们已经说明了data.table的处理方式是浅复制，下面我们用例子说明浅复制中相互影响带来的负面影响。

DT <- data.table(ID = c("b","b","b","a","a","c"), a = 1:6, b = 7:12, c = 13:18)
DD <- DT[,c:=18:13][]
DT;DD # 二者相同
DT["b",c:=15:13,on="ID"]
DT;DD # 二者仍相同，说明改变DT的同时也改变了DD
rm(DT,DD) # 删除变量重新试验

使用copy函数实现复制，不影响原来数据框

DT = data.table(ID = c("b","b","b","a","a","c"), a = 1:6, b = 7:12, c = 13:18)
assign_DT <- DT 
copy_DT  <- copy(DT)
DT;assign_DT;copy_DT # 此时三者一样
DT[,c:=18:13] # 改变其中一个
DT;assign_DT # 通过普通赋值符号产生的数据框也跟着改变了
copy_DT # 通过copy深复制才没有被影响
rm(DT,assign_DT,copy_DT)

也可以用address函数检查地址，而不用试验（通过地址来检查各个对象是否改变）

DT = data.table(ID = c("b","b","b","a","a","c"), a = 1:6, b = 7:12, c = 13:18)
assign_DT <- DT 
copy_DT  <- copy(DT)
sapply(c("DT","assign_DT","copy_DT"),
       function(x) address(get(x))) # 我们可以直接看出，前两者的地址是相同的，copy复制后是不同的

我们可以用同样的方法来检查一下data.frame

DF <- data.frame(ID = c("b","b","b","a","a","c"), a = 1:6, b = 7:12, c = 13:18)
address(DF)
DF1 <- DF
sapply(c("DF","DF1"),function(x) address(get(x))) # 相同
DF[1,2] <- 3
DF;DF1 # DF1没有因此而改变
sapply(c("DF","DF1"),function(x) address(get(x))) # DF改变，DF1未变

我们可以看到，data.frame中使用 <- 时，也没有进行深复制，而是共用的同一个内容。不过当其中一个发生变化时，另一个却不受影响，因为那个改变的会进行一次深复制，将它的内容存在了另一个地方。

by reference

我们上文提到的 := 来改变数据框称为 add/update/delete columns by reference。by reference 的含义在于，除了工作记忆以外，没有任何副本，处理时只占一列这么大的空间而不是整个数据框，这会让处理数据更加高效。

data.table包中所有set*函数都是by reference的，除此之外就是:=函数了。下面举几个例子

setorder

dft <- data.table(name1,weight,height,accept)
setorder(dft,weight,-height) # 按照weight从小到大排列，如果weight相同，则按照height从大到小
dft# 我们会发现使用这个函数是在原有数据框中进行的更改
setorderv(dft,c("weight","height"),c(1,-1)) # 和上面等价

setDT和setDF

dat <- data.frame(name1,weight,height,accept)
tracemem(dat)
setDF(dat) # dat 本身变成了data.frame，没有复制
untracemem(dat)

setDF同理，与此做对比的as.data.table函数，这个函数是通过转化的（as.data.frame同理）

daf <- data.frame(name1,weight,height,accept)
tracemem(daf)