2. apply函数

apply函数是最常用的代替for循环的函数。apply函数可以对矩阵、数据框、数组(二维、多维),按行或列进行循环计算,对子元素进行迭代,并把子元素以参数传递的形式给自定义的FUN函数中,并以返回计算结果。

函数定义:

apply(X, MARGIN, FUN, ...)

参数列表:

  • X:数组、矩阵、数据框
  • MARGIN: 按行计算或按按列计算,1表示按行,2表示按列
  • FUN: 自定义的调用函数
  • …: 更多参数,可选
  • 比如,对一个矩阵的每一行求和,下面就要用到apply做循环了。

    > x<-matrix(1:12,ncol=3)
    > apply(x,1,sum)
    [1] 15 18 21 24
    

    下面计算一个稍微复杂点的例子,按行循环,让数据框的x1列加1,并计算出x1,x2列的均值。

    # 生成data.frame
    > x <- cbind(x1 = 3, x2 = c(4:1, 2:5)); x
         x1 x2
    [1,]  3  4
    [2,]  3  3
    [3,]  3  2
    [4,]  3  1
    [5,]  3  2
    [6,]  3  3
    [7,]  3  4
    [8,]  3  5
    # 自定义函数myFUN,第一个参数x为数据
    # 第二、三个参数为自定义参数,可以通过apply的'...'进行传入。
    > myFUN<- function(x, c1, c2) {
    +   c(sum(x[c1],1), mean(x[c2])) 
    # 把数据框按行做循环,每行分别传递给myFUN函数,设置c1,c2对应myFUN的第二、三个参数
    > apply(x,1,myFUN,c1='x1',c2=c('x1','x2'))
         [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
    [1,]  4.0    4  4.0    4  4.0    4  4.0    4
    [2,]  3.5    3  2.5    2  2.5    3  3.5    4
    

     对于上面的需求,还可以这样实现,那就是完成利用了R的特性,通过向量化计算来完成的。

    > data.frame(x1=x[,1]+1,x2=rowMeans(x))
      x1  x2
    1  4 3.5
    2  4 3.0
    3  4 2.5
    4  4 2.0
    5  4 2.5
    6  4 3.0
    7  4 3.5
    8  4 4.0
    

    3. lapply函数

    lapply函数是一个最基础循环操作函数之一,用来对list、data.frame数据集进行循环,并返回和X长度同样的list结构作为结果集,通过lapply的开头的第一个字母’l’就可以判断返回结果集的类型。

    函数定义:

    lapply(X, FUN, ...)
    

    参数列表:

  • X:list、data.frame数据
  • FUN: 自定义的调用函数
  • …: 更多参数,可选
  • 比如,计算list中的每个KEY对应该的数据的分位数。

    4. sapply函数

    sapply函数是一个简化版的lapply,sapply增加了2个参数simplify和USE.NAMES,主要就是让输出看起来更友好,返回值为向量,而不是list对象。

    函数定义:

    sapply(X, FUN, ..., simplify=TRUE, USE.NAMES = TRUE)
    

    参数列表:

  • X:数组、矩阵、数据框
  • FUN: 自定义的调用函数
  • …: 更多参数,可选
  • simplify: 是否数组化,当值array时,输出结果按数组进行分组
  • USE.NAMES: 如果X为字符串,TRUE设置字符串为数据名,FALSE不设置
  • 我们还用上面lapply的计算需求进行说明。

    如果simplify=FALSE和USE.NAMES=FALSE,那么完全sapply函数就等于lapply函数了。

    5. vapply函数

    vapply类似于sapply,提供了FUN.VALUE参数,用来控制返回值的行名,这样可以让程序更健壮。

    函数定义:

    vapply(X, FUN, FUN.VALUE, ..., USE.NAMES = TRUE)
    

    参数列表:

  • X:数组、矩阵、数据框
  • FUN: 自定义的调用函数
  • FUN.VALUE: 定义返回值的行名row.names
  • …: 更多参数,可选
  • USE.NAMES: 如果X为字符串,TRUE设置字符串为数据名,FALSE不设置
  • 比如,对数据框的数据进行累计求和,并对每一行设置行名row.names

    通过使用vapply可以直接设置返回值的行名,这样子做其实可以节省一行的代码,让代码看起来更顺畅,当然如果不愿意多记一个函数,那么也可以直接忽略它,只用sapply就够了。 

    6. mapply函数

    mapply也是sapply的变形函数,类似多变量的sapply,但是参数定义有些变化。第一参数为自定义的FUN函数,第二个参数’…’可以接收多个数据,作为FUN函数的参数调用。

    函数定义:

    mapply(FUN, ..., MoreArgs = NULL, SIMPLIFY = TRUE,USE.NAMES = TRUE)
    

    参数列表:

  • FUN: 自定义的调用函数
  • …: 接收多个数据
  • MoreArgs: 参数列表
  • SIMPLIFY: 是否数组化,当值array时,输出结果按数组进行分组
  • USE.NAMES: 如果X为字符串,TRUE设置字符串为数据名,FALSE不设置
  • 比如,比较3个向量大小,按索引顺序取较大的值。

    > set.seed(1)
    # 定义3个向量
    > x<-1:10
    > y<-5:-4
    > z<-round(runif(10,-5,5))
    # 按索引顺序取较大的值。
    > mapply(max,x,y,z)
     [1]  5  4  3  4  5  6  7  8  9 10
    

     由于mapply是可以接收多个参数的,所以我们在做数据操作的时候,就不需要把数据先合并为data.frame了,直接一次操作就能计算出结果了。 

    7. tapply函数

    tapply用于分组的循环计算,通过INDEX参数可以把数据集X进行分组,相当于group by的操作。

    函数定义:

    tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE)
    

    参数列表:

  • X: 向量
  • INDEX: 用于分组的索引
  • FUN: 自定义的调用函数
  • …: 接收多个数据
  • simplify : 是否数组化,当值array时,输出结果按数组进行分组
  • 比如,计算不同品种的鸢尾花的花瓣(iris)长度的均值。

    # 通过iris$Species品种进行分组
    > tapply(iris$Petal.Length,iris$Species,mean)
        setosa versicolor  virginica 
         1.462      4.260      5.552 
    

     对向量x和y进行计算,并以向量t为索引进行分组,求和。 

    > set.seed(1)
    # 定义x,y向量
    > x<-y<-1:10;x;y
     [1]  1  2  3  4  5  6  7  8  9 10
     [1]  1  2  3  4  5  6  7  8  9 10
    # 设置分组索引t
    > t<-round(runif(10,1,100)%%2);t
     [1] 1 2 2 1 1 2 1 0 1 1
    # 对x进行分组求和
    > tapply(x,t,sum)
     0  1  2 
     8 36 11 
    

    8. rapply函数

    rapply是一个递归版本的lapply,它只处理list类型数据,对list的每个元素进行递归遍历,如果list包括子元素则继续遍历。

    函数定义:

    rapply(object, f, classes = "ANY", deflt = NULL, how = c("unlist", "replace", "list"), ...)
    

    参数列表:

  • object:list数据
  • f: 自定义的调用函数
  • classes : 匹配类型, ANY为所有类型
  • deflt: 非匹配类型的默认值
  • how: 3种操作方式,当为replace时,则用调用f后的结果替换原list中原来的元素;当为list时,新建一个list,类型匹配调用f函数,不匹配赋值为deflt;当为unlist时,会执行一次unlist(recursive = TRUE)的操作
  • …: 更多参数,可选
  • 比如,对一个list的数据进行过滤,把所有数字型numeric的数据进行从小到大的排序。

    > x=list(a=12,b=1:4,c=c('b','a'))
    > z=data.frame(a=rnorm(10),b=1:10)
    > a <- list(x=x,y=y,z=z)
    # 进行排序,并替换原list的值
    > rapply(a,sort, classes='numeric',how='replace')
    [1] 12
    [1] 4 3 2 1
    [1] "b" "a"
    [1] 3.141593
     [1] -0.8356286 -0.8204684 -0.6264538 -0.3053884  0.1836433  0.3295078
     [7]  0.4874291  0.5757814  0.7383247  1.5952808
     [1] 10  9  8  7  6  5  4  3  2  1
    > class(a$z$b)
    [1] "integer"
    

     从结果发现,只有$z$a的数据进行了排序,检查$z$b的类型,发现是integer,是不等于numeric的,所以没有进行排序。 

    9. eapply函数

    对一个环境空间中的所有变量进行遍历。如果我们有好的习惯,把自定义的变量都按一定的规则存储到自定义的环境空间中,那么这个函数将会让你的操作变得非常方便

    函数定义:

    eapply(env, FUN, ..., all.names = FALSE, USE.NAMES = TRUE)
    

    参数列表:

  • env: 环境空间
  • FUN: 自定义的调用函数
  • …: 更多参数,可选
  • all.names: 匹配类型, ANY为所有类型
  • USE.NAMES: 如果X为字符串,TRUE设置字符串为数据名,FALSE不设置
  •