R语言数据处理与基础操作：失败处理、多输出保存及子集选择

### R语言数据处理与基础操作：失败处理、多输出保存及子集选择 #### 1. 处理数据读取失败情况在数据处理过程中，有时数据结构复杂，无法用单一命令读取所有文件。`map()` 函数在处理文件读取时存在一个缺点，它要么成功读取目录下所有文件，要么因一个错误而失败，导致零文件读取。这就很让人困扰，为什么一个失败会阻止我们访问其他成功读取的数据呢？为了解决这个问题，`purrr` 包提供了 `possibly()` 函数。它是一个函数操作符，接受一个函数并返回一个行为经过修改的函数。具体来说，`possibly()` 会将一个原本报错的函数修改为返回指定值的函数。示例代码如下： ```R files <- paths |> map(possibly(\(path) readxl::read_excel(path), NULL)) data <- files |> list_rbind() ``` 这里 `list_rbind()` 函数和许多 `tidyverse` 函数一样，会自动忽略 `NULL` 值，所以这种处理方式很有效。接下来，我们需要找出哪些文件读取失败了。可以通过以下步骤实现： ```R failed <- map_vec(files, is.null) paths[failed] ``` #### 2. 保存多个输出前面我们学习了 `map()` 函数用于将多个文件读取到一个对象中，现在我们来探讨相反的问题：如何将一个或多个 R 对象保存到一个或多个文件中。下面通过三个例子来详细说明。 ##### 2.1 保存多个数据框到一个数据库当同时处理多个文件时，可能无法将所有数据一次性加载到内存中，这时可以将数据加载到数据库中，使用 `dbplyr` 来访问所需的数据。如果使用的数据库包提供了一个方便的函数，能将路径向量中的所有文件加载到数据库中，那就很方便了，例如 `duckdb` 的 `duckdb_read_csv()` 函数： ```R con <- DBI::dbConnect(duckdb::duckdb()) duckdb::duckdb_read_csv(con, "gapminder", paths) ``` 但如果我们处理的是 Excel 电子表格，就需要手动操作了。具体步骤如下： 1. 创建一个模板数据框，包含所需的所有列，但只包含部分数据。以 `gapminder` 数据为例： ```R template <- readxl::read_excel(paths[[1]]) template$year <- 1952 ``` 2. 连接到数据库，并使用 `DBI::dbCreateTable()` 函数将模板转换为数据库表： ```R con <- DBI::dbConnect(duckdb::duckdb()) DBI::dbCreateTable(con, "gapminder", template) ``` 3. 创建一个函数，用于读取单个文件并将结果添加到 `gapminder` 表中： ```R append_file <- function(path) { df <- readxl::read_excel(path) df$year <- parse_number(basename(path)) DBI::dbAppendTable(con, "gapminder", df) } ``` 4. 调用 `append_file()` 函数处理每个文件路径。这里使用 `walk()` 函数更合适，因为我们不关心函数的输出： ```R paths |> walk(append_file) ``` 5. 检查数据是否都已添加到表中： ```R con |> tbl("gapminder") |> count(year) ``` ##### 2.2 保存多个数据框到多个 CSV 文件假设我们要将 `ggplot2::diamonds` 数据按 `clarity` 分组，为每个组保存一个 CSV 文件。具体操作步骤如下： 1. 使用 `group_nest()` 函数创建分组数据集： ```R by_clarity <- diamonds |> group_nest(clarity) ``` 2. 创建一个包含输出文件名称的列： ```R by_clarity <- by_clarity |> mutate(path = str_glue("diamonds-{clarity}.csv")) ``` 3. 使用 `walk2()` 函数将每个数据框保存为 CSV 文件： ```R walk2(by_clarity$data, by_clarity$path, write_csv) ``` ##### 2.3 保存多个绘图到多个 PNG 文件我们可以采用类似的方法创建多个绘图并保存为 PNG 文件。具体步骤如下： 1. 创建一个绘制所需绘图的函数： ```R carat_histogram <- function(df) { ggplot(df, aes(x = carat)) + geom_histogram(binwidth = 0.1) } ``` 2. 使用 `map()` 函数创建绘图列表和对应的文件路径： ```R by_clarity <- by_clarity |> mutate( plot = map(data, carat_histogram), path = str_glue("clarity-{clarity}.png") ) ``` 3. 使用 `walk2()` 函数和 `ggsave()` 函数保存每个绘图： ```R walk2( by_clarity$path, ```

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

R语言数据处理与基础操作：失败处理、多输出保存及子集选择

相关推荐

专栏目录

R语言数据处理与基础操作：失败处理、多输出保存及子集选择

相关推荐

【数据处理与分析】Pandas库基本操作详解：涵盖数据结构、导入导出、清洗筛选及统计分析方法

R语言中的列表（List）创建与应用：灵活的数据结构

R语言中数据框（Data Frame）的深度解析与应用实践

【Go语言JSON数据处理攻略】：输入输出与转换的高级实践方法（实用型+权威性）

【R语言大规模数据处理教程】：高效使用snow包实战演练

【R语言数据预处理全面解析】：数据清洗、转换与集成技术（数据清洗专家）

R语言中的数据处理及清洗技术

大数据处理：t-SNE、R语言与并行计算的应用

独家揭秘：R语言与geojsonio包结合实现数据处理的极致效率

【R语言大数据加速】：clara包助力数据处理并行化

Linux相关概念及命令

基于单片机的电加热炉温.pptx

专栏目录

最新推荐

【University of Connecticut.rar安全深度挖掘】：10个隐藏威胁识别与清除秘籍

数据提取与处理：字符、字节和字段的解析

分形分析与随机微分方程：理论与应用

零售销售数据的探索性分析与DeepAR模型预测

编程挑战：uniq与findr实现解析

Web开发实用技巧与Perl服务器安装使用指南

人工智能的组织、社会和伦理影响管理

数据处理与自然语言编码技术详解

碳纳米管在摩擦学应用中的最新进展

前端交互效果与Perl服务器安装指南