备案 控制台
学习
实践
活动
专区
工具
TVP
写文章

数据处理第3部分:选择行 基本和高级 方法

在这篇文章 ,我们将介绍 如何 挑选您 数据。 除了 filter 基础知识外,它还介绍了一些更好 方法,用near()和between()挑选数字 ,或用正则表达式 过滤 字符串列。 Basic row filters 在许多情况下,您不希望在分析 包括所有行,而只包括选择 行。 仅 使用 特定行 函数在 dplyr 称为“ filter ()”。 ()将根据您 进一步说明 过滤 所有 * filter _if()需要一个返回布尔值 函数来指示要 过滤 。 或者您只是 过滤 所有 字符串“food”。 在下面的示例代码 ,我在所有 搜索字符串“Ca”。我想保留在任何变量中出现字符串“Ca” 行,所以我将条件包装在any_vars() 。 描述 都是字符 ,而测量数据是数字。 所以 使用 filter _if()我可以指定我只想 过滤 字符变量。 在这种情况下,我只得到7行。

374 1 0

「R」数据操作(五): dplyr 介绍与数据 过滤

准备 这部分我们聚焦于 如何 使用 dplyr 包,除ggplot2 另一个tidyverse核心成员。我们将 使用 nyclights13数据包解释关键 概念并 使用 ggplot2帮助理解数据。 ## lag(): dplyr , stats 注意一下你导入tidyverse包时给出 冲突信息(Conflicts),它告诉你 dplyr 覆盖了R基础包 函数。 ,这里适配地显示了在一个屏幕前几行和所有的 (我们可以 使用 View(flights)在Rstudio 查看数据集 所有信息。 让我们实际来看看这些动词是怎么工作 使用 filter () 过滤 filter ()允许我们根据观测值来对数据集取子集。第一个参数是数据框 名字,第二和随后 参数是用于 过滤 数据框 表达式。 x == y ## [1] NA # 我们不知道 如果你想确定一个值是不是缺失了, 使用 is. na (): is. na (x) ## [1] TRUE filter ()仅仅会包含条件是TRUE 行,把是

979 1 1
  • 广告
    关闭

    上云精选

    2核2G云服务器 每月9.33元起,个人开发者专属3年机 低至2.3折

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    「R」 dplyr 列式计算

    ❝在近期 使用 dplyr 」 进行 选择性操作,如 mutate_at() 时,发现文档提示一系列 dplyr 」 函数变体已经过期,看来后续要退休了, 使用 across() 是它们 统一替代品,所以最近抽时间针对性 学习和翻译下 原文来自 [ dplyr 文档](Column-wise operations • dplyr (tidyverse.org " dplyr 文档")) - 2021-01❞ 同时对数据框 执行相同 函数操作经常有用 _if, _at, _all 「 dplyr 」 以前 版本允许以不同 方式将函数应用到多个 使用 带有_if、_at和_all后缀 函数。这些功能解决了迫切 需求而被许多人 使用 ,但现在被取代了。 这是由 base R 提供 ,但它并没有很好 文档,我们花了一段时间才发现它是有用 ,而不仅仅是理论上 好奇。 我们可以 使用 数据框让汇总函数返回 。 我们可以 使用 没有外部名称作为将数据框 解包为单独 约定。 你 如何 转移已经存在 代码?

    267 1 0

    R语言数据处理:飞机航行距离与到达延误时间有什么关系??

    这一点,我想大部分 使用 EXCEL 童鞋都深有体会,写论文时,这么 数据进行处理,手动汇总、筛选、变换,工作量实在是太大。 包,该软件包 飞机航班数据将用于本文中 dplyr 包相关函数 演示。 2.3 删除缺失数据 我们采用 dplyr filter ()函数,进行缺失数据 删除。脚本输入代码: myFlights <- filter (myFlights,! X”将限定有效数据,最后用 filter ()函数“ 过滤 ”得到有效数据,成功地删除了缺失数据(由原先 336,776个数据变为327,346个数据)。 3.2 应用函数及组合结果 我们 使用 dplyr summarize()函数,进行数据统计指标的获取及组合。计算出不同目的地 平行航行距离以及平均延误时间。

    1.2K 4 0

    使用 R 语言从 PDF 文档中提取表格

    由于一个知识星球 小伙伴急需学习 如何 从 PDF 文档中提取表格,所以先插这个课,「 使用 R 语言处理 netCDF 数据」系列 课程下次再发新 哈。 本课程介绍了 如何 使用 R 语言从 WHO(世界卫生组织) 官网上下载新冠疫情 每日报告以及 如何 从这些报告 表格里面提取数据。 这个非常简单,我 思路是直接获取网页 所有 标签 href 属性,然后 过滤 出链接 含 .pdf ,最后再用一个循环下载所有的 PDF 文件即可。 is. na (Total_confirmed_cases)) %>% dplyr :: filter (! is. na (Total_confirmed_cases)) %>% dplyr :: filter (!

    1.8K 1 0

    TidyFriday 每天 5 分钟,轻轻松松上手 R 语言(四)

    上次推文,我们通过数字和字符进行了简单 行筛选,今天我们继续来探讨 filter () 进阶用法 今天我们 使用 msleep 来进行演示 filter () 用法,msleep 是一个关于哺乳动物睡眠 数据 例如,要选择总睡眠时间在16至18小时之间 所有动物,我可以 使用 filter (sleep_total >= 16, sleep_total <= 18) ,但是 使用 between ()看起来会更简洁一些 ## # ... with 44 more rows 跨 筛选 dplyr 包还有几个功能强大 包,来支持我们跨 筛选 「 filter _all」 现在有个需求,只要 值包含字母组合 Ca 我们就把这个观测值筛选出来 现在我们想筛选出这样 观测值,字符型 变量 值为空,而不管数值型 变量是否为空, 此时 filter _all 就不太好用了, filter _all(any_vars(is. na (.)))会将所有包含 、 is.double、 is.logical、 is.factor等,我们 筛选手段 更加丰富了 「 filter _at」 filter _at()可以用来筛选给定变量 符合某条件 观测值,比如下面这个例子

    281 3 0

    「Workshop」第二期:程序控制与数据操作流

    , sample_n, sample_frac, top_n, distinct 筛选 select 排序 arrange 行列增加/更新 基本 数学和比较逻辑运算符 + - * / > < == dense_rank min_rank ntile percent_rank row_number 其他 dplyr :: between case_when coalesce if_else na _if is. na ()) 位置 mean, meadian 逻辑值 mean, sum 位置 dplyr :: first last nth 排序 quantile min max 分布 IQR mad sd var separate_rows unite write_* data.table 与 base 数据导入 fread 数据导出 fwrite data.table 语法 dt[i, j, by] 数据 过滤 与合并等操作与 R 基础语法一致,也可以 使用 tidyverse 处理 进一步 学习参考小抄、文档和《R 语言编程指南》 后几期主题 本期未讲述 内容???

    312 3 0

    tidyverse:R语言中相当于python pandas+matplotlib 存在

    library(tidyverse) #加载以下tidyverse 核心 packages: ggplot2:画图,可视化数据 dplyr :操控数据, 过滤 、排序等 tidyr:清理数据 readr:( ,是弱类型 ,同时与data.frame有相同 语法, 使用 起来更方便。 :数据整理 dplyr 下述五个函数用法 4.1 筛选: filter 4.2 排列: arrange 4.3 选择: select 4.4 变形: mutate 4.5 汇总: summarise 4.6 分组: group_by # install.packages(" dplyr ") library( dplyr ) 4.1 筛选: filter () #按给定 逻辑判断筛选出符合要求 子数据集 = FALSE) #data:需要被转换 宽形表 #key:将原数据框 所有 赋给一个新变量key #value:将原数据框 所有值赋给一个新变量value #…:可以指定哪些 聚到同一 # na .rm

    686 1 0

    R 数据整理(七: 使用 tidyr和 dplyr 处理数据框 2.0)

    /tidyr 数据管理 2.1 filter 使用 逻辑条件对行筛选。 filter () 会自动舍弃行名,如果需要行名只能将其转换成数据框 。 2.4 drop_ na 效果和 na .omit 一样,但是高级之处在于,其可以指定 ,对数据框某 存在 NA 行直接删除: > library(tidyr) > drop_ na (X,X1) X1 X2 对于即将合并 ,需要 使用 引号;但对于想要合并 多个列名,可以不用 使用 引号。sep 参数设定 合并后不同数据分隔 使用 分割符。 extract 除了seperate 外,函数 extract() 可以按照某种正则表达式表示 模式从指定 拆分出对应于正则表达式 捕获组 内容。

    554 3 0

    R语言日常笔记(1) filter 函数

    R语言日常笔记(1) filter 函数 在处理数据时, 过滤 数据是最基本 操作之一。 如果想删除一部分无效或者根本不感兴趣 数据。 dplyr filter ()函数来做这样 过滤 使用 dplyr ,可以帮助 使用 者像 使用 SQL或者传统BI工具以简单且更直观 方式进行 过滤 。 导入数据,这一次主要 使用 是flight数据集 rm(list=ls()) library(nycflights13) library( dplyr ) flights > flights 函数(一般用于 使用 者想对数据集中 符合条件 进行筛选操作时(注:虽然是以特定 进行筛选 ,但是最后呈现 数据还是全部 ) > mtcars %>% + filter _at(vars(starts_with 函数(一般用于 使用 者想对数据集中 符合条件 进行转换,然后进行观测值 筛选时)。

    20.3K 3 0

    dplyr across操作

    dplyr across函数取代了之前 xx_if/xx_at/xx_all,用法更加灵活,初学时觉得不如xx_if/xx_at/xx_all简单易懂,用习惯后真是利器! 主要是介绍across函数 用法,这是 dplyr 1.0才出来 一个函数,大大简化了代码 可用于对 做同一个操作。 across其他连用 和 filter ()连用 library( dplyr , warn.conflicts = FALSE) across()有两个基本参数: .cols:选择你想操作 where(is.numeric),因为第2个across会 使用 新创建 (“min_height”, “min_mass” and “min_birth_year”)。 if_any():任何一 满足条件即可 if_all():所有 都要满足条件 starwars %>% filter (if_any(everything(), ~ !

    110 3 0

    R︱高效数据操作——data.table包(实战心得、 dplyr 对比、key灵活用法、数据合并)

    data.table ,还有一个比较特立独行 函数: 使用 :=引用来添加或更新一 (参考:R语言data.table速查手册) DT[, c("V1","V2") := list(round(exp(V1 %in% c('CA','MA',"TX")] dplyr filter ,content满足某种条件 进行筛选,而data.table 筛选方式很传统,比较简单。 (2)多变量筛选,用&|等 from_ dplyr = filter (tb,State=='CA' & Claim.Type! nomatch参数用于控制,当在i 没有到匹配数据 返回结果,默认为 NA ,也能设定为0。 —————————————————————— 实战一:在data.table 如何 选中 如何 循环提取、操作data.table

    2.8K 4 2

    什么是sparklyr

    过滤 和聚合Spark数据集,然后将它们通过R进行分析和可视化。 你可以 使用 dplyr copy_to函数将R data frames拷贝到Spark。(更典型 是你可以通过spark_read 一系列函数读取Spark集群 数据。) batting_tbl <- copy_to(sc, Lahman::Batting, "batting") 使用 dplyr 针对集群 表,我们现在可以 使用 所有可用 dplyr verbs 以下是一个简单 过滤 示例: # filter by departure delay flights_tbl %>% filter (dep_delay == 2) https://cran.r-project.org aliId=16814538 醉酒鞭名马,少年 浮夸! 岭南浣溪沙,呕吐酒肆下!挚友不肯放,数据玩 花! 温馨提示:要看高清无码套图,请 使用 手机打开并单击图片放大查看。

    908 9 0

    day6-白雪

    #含有多个函数 使用 代码以及方法R包 安装和加载镜像设置# options函数就是设置R运行过程 一些选项设置> options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn ,首先得知道你要安装什么包,安装包完成后,才可以 使用 包里面的函数已安装 dplyr 为例options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn ) # dplyr 下载 是一个安装包,解压在输,要不报错示例数据直接 使用 内置数据集iris 简化版:test <- iris[c(1:2,51:52,101:102),] dplyr 五个基础函数mutate 引用自微信公众号生信星球图片count统计某 unique值计算数据对象(vector、dataframe) unique独特值: unique函数 从vector向量、dataframe 删除重复项 by = 'x') #显示2表 x与1表不同 数据 x y1 a 12 c 33 d 4简单合并bind_rows()函数需要两个表格 数相同,而bind_cols()函数则需要两个数据框有相同 行数

    96 0 0

    tidyverse|数据分析常规操作-分组汇总(sumamrise+group_by)

    使用 tidyverse进行简单 数据处理: 盘一盘Tidyverse| 筛行选 之select,玩转列操作 盘一盘Tidyverse| 只要你要只要我有- filter 筛选行 Tidyverse|数据 分分合合 ,一分 合一 Tidyverse| XX_join :多个数据表(文件)之间 各种连接 本次介绍变量汇总以及分组汇总。 summarise_at配合vars,可以更灵活 筛选符合条件 ,然后进行汇总 iris %>% summarise_at(vars(ends_with("Length"),Petal.Width is. na (x)) :返回非缺失值 梳理; n_distinct(x):返回 唯一值 数量。 这使得 sum() 和 mean() 非常适用于逻辑值:sum(x) 可以找出 x TRUE 数量, mean(x) 则可以找出比例 . iris %>% group_by(Species

    1.3K 6 0

    快速掌握R语言中类SQL数据库操作技巧

    在数据分析 ,往往会遇到各种复杂 数据处理操作:分组、排序、 过滤 、转置、填充、移动、合并、分裂、去重、找重、填充等操作。这时候R语言就是一个很好 选择:R可以高效地、优雅地解决数据处理操作。 对于 NA 操作,主要都集中在了 过滤 操作和填充操作 ,因此就不在单独介绍 NA 处理了。 可参考↓↓ R语言 | 第一部分:数据预处理 7.数据筛选和8.抽样 R语言数据管理与 dplyr 、tidyr | 第4讲 5 dplyr 5.1筛选 filter 和5.3选择select 4 2 B NA 4.2 数据增减 常见如以下不同方法 #方法一:减行数或 数 x=x[,-1] #代表删除x数据集中第一 数据 #方法二: dplyr ::mutate 去重与找重 去重,是把向量 重复 元素 过滤 掉。找重,是把向量 重复 元素找出来。

    1K 2 0

    数据处理 R包

    教程,可以参考官方文档:http://plyr.had.co.nz/ 3.2.2 dplyr dplyr 是一个强大 R包,用于处理,清理和汇总非结构化数据,使得R 数据探索和数据操作变得简单快捷,也是出于 (1) filter filter 函数筛选,查找特定条件 行或者样本,但不能筛选变量 > library( dplyr ) > # 筛选Sepal.Length>7.8,Species=="virginica 如果需要阅读更多 dplyr 教程,可以参考 dplyr 官方文档:https://www.rdocumentation.org/packages/ dplyr 3.2.3 tidyr 在数据整合过程 tidyr包主要涉及:gather(宽数据转为长数据),spread(长数据转为宽数据),separate( 合并为一 )和unite(将一 分离为 ) (1)gather 使用 gather()函数实现宽表转长表 ,语法如下: gather(data, key, value, na .rm = FALSE,···) data:需要被转换 宽形表 key:将原数据框 所有 赋给一个新变量key value:将原数据框 所有值赋给一个新变量

    318 2 0

    数据清洗与管理之 dplyr 、tidyr

    缺失值 5 dplyr 下述五个函数用法 5.1 筛选: filter 5.2 排列: arrange 5.3 选择: select 5.4 变形: mutate 5.5 汇总: summarise 6.3 合并为一 :unit 6.4 将一 分离为 :separat 先前已经讲过R语言生成测试数据、数据预处理和外部数据输入等内容,但这仅仅是第一步,我们还需要对数据集进行筛选、缺失值处理等操作 attr(,"class") [1] "omit" 5 dplyr 下述五个函数用法【高级数据管理包】 # install.packages(" dplyr ") library( dplyr ) # 使用 datasets 类似excel透视表反向操作 #gather(data, key, value, …, na .rm = FALSE, convert = FALSE) #data:需要被转换 宽形表 #key:将原数据框 所有 赋给一个新变量 #value:将原数据框 所有值赋给一个新变量value #…:可以指定哪些 聚到同一 # na .rm:是否删除缺失值 widedata <- data.frame(person=c('Alex

    728 4 0