掌握group_by() + summarize() 分组统计

<think>好的，用户现在想了解`group_by()`和`summarize()`在dplyr中的使用，特别是分组统计。之前我已经介绍了filter和select，现在需要延续这个教学流程，确保结构清晰，步骤明确。首先，我需要确认用户对dplyr的基础是否有足够的了解，比如是否已经熟悉管道操作符`%>%`，以及基本的动词如mutate。但考虑到用户已经学习了filter和select，可能已经具备一定的基础，所以可以跳过最基础的介绍，直接进入主题。接下来，我应该从`group_by()`的基本语法开始，解释它的作用是将数据分组，这是分组统计的前提。然后，结合`summarize()`，说明如何对分组后的数据进行汇总统计。需要提供简单明了的示例，比如按性别分组计算平均身高，这样用户容易理解。然后，用户可能需要知道一些常见统计函数，比如mean、sum、sd等，以及如何处理NA值。在示例中，应该包括这些内容，比如使用na.rm=TRUE来排除缺失值，避免计算结果为NA。进阶部分需要包括更复杂的操作，比如分组后筛选（结合filter）、多重分组（多个变量分组）、创建多个统计量，以及使用across进行跨列计算。这些是用户在实际分析中可能会遇到的场景，需要详细说明。对比基础R的aggregate函数，可以突出dplyr的优势，比如代码可读性、管道操作等。同时，提醒常见问题，比如忘记ungroup可能导致后续操作出错，或者分组过多影响性能，这些是用户实践中容易遇到的坑，需要提前预警。最后，推荐学习路径，引导用户继续学习arrange、rename等函数，形成完整的学习链条。确保整个回答结构清晰，逐步深入，示例充分，帮助用户从基础到进阶掌握这两个函数的使用。</think>以下是`group_by()`与`summarize()`的详细解析，建议配合实际数据集操作练习： --- ### 一、核心功能定位 `group_by()` + `summarize()` 是dplyr中最强大的**分组聚合计算工具**，相当于SQL中的`GROUP BY`，Excel中的数据透视表 --- ### 二、基础语法结构 ```R 数据集 %>% group_by(分组变量) %>% summarize(统计量定义) ``` --- ### 三、典型应用场景 #### 1. 单变量分组统计 **示例数据集** (使用starwars内置数据) ```R starwars <- dplyr::starwars ``` **基础计算** ```R # 按性别计算平均身高 starwars %>% group_by(gender) %>% summarize( avg_height = mean(height, na.rm = TRUE), max_mass = max(mass, na.rm = TRUE) ) # 结果示例 # gender avg_height max_mass # <chr> <dbl> <dbl> # feminine 178. 1356 # masculine 179. 159 ``` #### 2. 多变量交叉分组 ```R # 按性别+物种分组统计 starwars %>% group_by(gender, species) %>% summarize( count = n(), .groups = "drop" # 自动解除分组状态 ) ``` #### 3. 特殊值处理技巧 ```R # 安全计算含NA值的列 starwars %>% group_by(homeworld) %>% summarize( valid_mass = sum(!is.na(mass)), avg_mass = mean(mass, na.rm = TRUE) ) ``` --- ### 四、统计函数速查表 | 函数 | 功能描述 | 示例 | |-----------------------|----------------------------|-------------------------| | `n()` | 计数（含NA） | `count = n()` | | `n_distinct()` | 唯一值计数 | `unique = n_distinct()`| | `sum()/mean()/median()`| 求和/均值/中位数 | `total = sum(x, na.rm=T)` | | `sd()/IQR()` | 标准差/四分位距 | `variation = sd(x)` | | `first()/last()` | 取分组首尾元素 | `first = first(name)` | --- ### 五、进阶应用模式 #### 1. 分组后筛选 ```R # 找出每个物种最高个体 starwars %>% group_by(species) %>% filter(height == max(height, na.rm = TRUE)) %>% select(name, species, height) ``` #### 2. 多重统计量生成 ```R # 批量创建统计指标 starwars %>% group_by(homeworld) %>% summarize( across( c(height, mass), list(mean = ~mean(.x, na.rm=TRUE), sd = ~sd(.x, na.rm=TRUE)), .names = "{.col}_{.fn}" ) ) ``` #### 3. 条件聚合计算 ```R # 计算各组质量超过100kg的比例 starwars %>% group_by(species) %>% summarize( heavy_ratio = mean(mass > 100, na.rm = TRUE) ) ``` --- ### 六、与基础R对比 #### 等效于`aggregate()`函数 ```R # dplyr方式 starwars %>% group_by(species) %>% summarize(avg_height = mean(height, na.rm=T)) # 基础R方式 aggregate(height ~ species, data = starwars, FUN = mean, na.rm=TRUE) ``` **dplyr优势**： - 支持管道操作链式处理 - 直观的多列统计语法 - 自动处理分组元数据 --- ### 七、常见错误排查 1. **忘记`na.rm=TRUE`**：当列存在NA时统计结果会返回NA 2. **残留分组状态**：分组后数据框需用`ungroup()`解除分组 3. **分组过多**：高基数分组变量(如ID列)会导致性能骤降 --- ### 八、学习路线建议 1. 先掌握单层分组统计 2. 练习`across()`跨列操作 3. 结合`mutate()`实现分组内计算 4. 学习`window functions`进行分组排序

阅读全文

掌握group_by() + summarize() 分组统计

相关推荐

ModernDive_book：通过数据科学进行统计推断：R和Tidyverse的ModernDive

DAX-统计函数.pdf

patient_info

group_by 配合 summarize 去重

group_by函数

r group_by ungroup

R语言 group_by

group_by R语言

r语言中group_by

r语言group_by()

r语言group_by函数怎么用

group_by(seq, keyfn) 积木报表

summarize 函数

python分组统计第一列不显示

R语言按单位性质和性别分组统计各组的消费水平平均值并存在melt1_data1

R语言summarize

r语言groupby

powerBI GROUPBY

R中的group by

韦东山嵌入式入门笔记之——应用开发基础篇（六）

电力通信在未来智能电网中的应用.docx

大家在看

实时控制动态相机,动态摄像机,C#源码.zip

AIPEX练习手册

招聘信息合集1111111

PyGame官方手册（官方API）包含中文和英文（全）.zip

波特率任意设 串口调试助手

最新推荐

使用Nginx实现负载均衡配置详解.doc

Mockingbird v2：PocketMine-MP新防作弊机制详解

“历史人物独白解说”视频：数据处理的6种革命性技术

怎么判断多级运放电路的稳定性？

利用AHP和节点集中度解决影响力最大化问题的Flask应用教程

视频内容自动生成算法：突破性的8大最新进展

Softmax函数实际应用举例

WDI项目1：PriceIsRight游戏开发实践

人工智能视频编辑：如何利用技术进步提升内容创作质量

反激变换器

波特率任意设串口调试助手