merged_data <- aggregate(.~Gender,data=df,mean)
注:“.”表示非分组因子,而“~”表示指定分组因子。
例2:计算不同性别对应的Age,Height均值。
我们可以这么写代码:
merged_data <- aggregate(cbind(Age,Height)~Gender,data=df,mean)
注:这里的cbind(Age,Height)代替了例1中的“.”。
然后解释一下aggregate函数:
aggregate函数用于对数据进行聚合操作,通常用于根据一个或多个因素(例如列)对数据进行分组并应用聚合函数(如求和、均值、中位数等)来生成汇总统计信息。下面是aggregate函数的基本用法:
aggregate(formula, data, FUN, ...)
formula: 一个公式,指定了你要聚合的变量和聚合方式。一般情况下,它的格式是聚合变量 ~ 分组因子1 + 分组因子2 + ...,其中聚合变量是你要计算聚合统计信息的变量,分组因子是你希望数据根据哪些因素进行分组。
data: 包含你的数据的数据框。
FUN: 一个聚合函数,可以是内置的R函数(如mean、sum、median等),也可以是你自定义的函数。
...: 其他可选参数,用于传递给聚合函数。
一般情况下,它的格式是聚合变量 ~ 分组因子1 + 分组因子2 + ...,其中聚合变量是你要计算聚合统计信息的变量,分组因子是你希望数据根据哪些因素进行分组。aggregate函数用于对数据进行聚合操作,通常用于根据一个或多个因素(例如列)对数据进行分组并应用聚合函数(如求和、均值、中位数等)来生成汇总统计信息。FUN: 一个聚合函数,可以是内置的R函数(如mean、sum、median等),也可以是你自定义的函数。例1:计算不同性别对应的Age,Height,Weight均值。
一、 概述
重复,特别是针对一些样本名称的重复问题的处理,是我在进
行
生信分析时经常遇到的。一种常见的解决策略是先找到重复之处,然后去重。但如果我们想要保留全部的重复ID呢?
一个简单的例子
生成一个非常简单的带重复的序列:
r$> data = c("a", "b", "c", "d", "a")
r$> data
1.
函数
功能
Splits the data into subsets, computes summary statistics for each,
and returns the result in a convenient form.
将
数据
拆分为子集,为每个子集计算摘要统计信息,然后以方便的形式返回结果。
2.
函数
语法
aggregate
(x, by, FUN, ..., simplify = TRUE, drop = TRUE)
3.
函数
参数
3.1 x
an R object.
我们经常可能需要把一个
数据
按照某一属性分组,然后计算一些统计值。在R
语言
里面,
aggregate
函数
就可以办到。
## S3 method for class 'data.frame'
aggregate
(x, by, FUN, ..., simplify = TRUE, drop = TRUE)
我们常用到的参数是:x, by, FUN。
x, 你想要计算的属性或者列。
by, 是一个list,可以指定一个或者多个列作为分组的基础。
FUN, 指定一个
函数
,用来计算,可以作用在所有分组的
数据
上面。
文章目录一、因子与水平二、因子的常用
函数
1、tapply
函数
2、split()
函数
3、by()
函数
三、表的操作
一、因子与水平
在R中可以简单地看作一个附加了更多信息的向量(它们内部机理不同)。额外的信息包括向量中不同值得记录,称为“水平”:
> x<-c(5,12,13,12)
> xf<-factor(x)
[1] 5 12 13 12
Levels: 5 12 13
xf中的不同数值(5、12、13)就是水平
> str(xf)
Factor w/
首先要知道 计算
均值
的
函数
为 mean 计算标准差的
函数
是 sd 。 还有一个
函数
tapply ,我们需要用这个
函数
来实现我们要求实现的功能。
tapply(data,INDEX,FUN)
data 就是我们要计算平
均值
得
数据
的来源
INDEX 就是指要以这里所列出的相同的ID为一组
数据
来计算
FUN 就是我们用到的
函数
对于data和INDEX这两个
数据
的长度要一样,什么意思呢,
R
语言
中的
aggregate
函数
用于将
数据
拆分为子集,为每个子集计算摘要统计信息,然后以方便的形式返回结果。该
函数
的语法为:
aggregate
(x, by, FUN, ..., simplify = TRUE, drop = TRUE),其中x是待折叠的
数据
对象,by是一个列表,表示按照哪些变量进
行
分组,FUN表示需要对每个组执
行
的计算
函数
。该
函数
还支持其他参数,例如simplify和drop等。
使用
aggregate
函数
可以方便地对
数据
进
行
分组计算描述性统计量,如平均数、中位数、标准差等。除了该
函数
,R
语言
还提供了其他
函数
如describe.by()等用于分组计算描述性统计量。
--相关问题--:
CSDN-Ada助手: