网页数据抓取：从HTML到R的数据提取

### 网页数据抓取：从HTML到R的数据提取在网页数据抓取过程中，当我们将HTML数据获取到R环境后，接下来的关键步骤就是提取我们感兴趣的数据。本文将详细介绍如何利用CSS选择器和 `rvest` 包中的函数来完成这一任务，并通过实际案例进行演示。 #### 1. 查找元素 CSS是定义HTML文档视觉样式的工具，其中包含一种用于选择页面元素的小型语言，即CSS选择器。它能定义定位HTML元素的模式，对于数据抓取非常有用，因为它提供了一种简洁的方式来描述我们想要提取的元素。常用的CSS选择器有以下三种： - `p`：选择所有 `` 元素。 - `.title`：选择所有类名为 “title” 的元素。 - `#title`：选择 `id` 属性等于 “title” 的元素，由于 `id` 属性在文档中必须唯一，所以该选择器只会选择一个元素。以下是一个简单的示例代码： ```R html <- minimal_html(" <h1>This is a heading</h1> This is a paragraph This is an important paragraph ") # 使用 html_elements() 查找匹配选择器的所有元素 html |> html_elements("p") #> {xml_nodeset (2)} #> [1] This is a paragraph #> [2] This is an important paragraph html |> html_elements(".important") #> {xml_nodeset (1)} #> [1] This is an important paragraph html |> html_elements("#first") #> {xml_nodeset (1)} #> [1] This is a paragraph ``` 另一个重要的函数是 `html_element()`，它返回的输出数量与输入数量相同。如果将其应用于整个文档，它将返回第一个匹配的元素： ```R html |> html_element("p") #> {html_node} #> ``` 当使用不匹配任何元素的选择器时，`html_elements()` 和 `html_element()` 存在重要区别：`html_elements()` 返回长度为0的向量，而 `html_element()` 返回缺失值。 ```R html |> html_elements("b") #> {xml_nodeset (0)} html |> html_element("b") #> {xml_missing} #> <NA> ``` #### 2. 嵌套选择在大多数情况下，我们会同时使用 `html_elements()` 和 `html_element()`。通常先使用 `html_elements()` 识别将成为观测值的元素，然后使用 `html_element()` 查找将成为变量的元素。以下是一个简单的示例，我们有一个无序列表，每个列表项包含《星球大战》中四个角色的信息： ```R html <- minimal_html(" <ul> <li>C-3PO is a droid that weighs 167 kg</li> <li>R4-P17 is a droid</li> <li>R2-D2 is a droid that weighs 96 kg</li> <li>Yoda weighs 66 kg</li> </ul> ") # 使用 html_elements() 创建一个向量，每个元素对应一个不同的角色 characters <- html |> html_elements("li") characters #> {xml_nodeset (4)} #> [1] <li>\nC-3PO is a droid that weighs ... #> [2] <li>\nR4-P17 is a droid\n</li> #> [3] <li>\nR2-D2 is a droid that weighs ... #> [4] <li>\nYoda weighs 66 kg\n</li> # 提取每个角色的名字 characters |> html_element("b") #> {xml_nodeset (4)} #> [1] C-3PO #> [2] R4-P17 #> [3] R2-D2 #> [4] Yoda # 提取每个角色的体重 characters |> html_element(".weight") #> {xml_nodeset (4)} #> [1] 167 kg #> [2] <NA> #> [3] 96 kg #> [4] 66 kg # 使用 html_elements() 查找所有体重元素 characters |> html_elements(".weight") #> {xml_nodeset (3)} #> [1] 167 kg #> [2] 96 kg #> [3] 66 kg ``` 从上述代码可以看出，对于名字的提取，`html_element()` 和 `html_elements()` 的区别并不重要，但对于体重的提取，`html_element()` 能确保为每个角色获取一个体重值，即使该角色没有体重信息。 #### 3. 提取数据当我们选择了感兴趣的元素后，需要从文本内容或某些属性中提取数据。 ##### 3.1 文本提取 `html_text2()` 函数用于提取HTML元素的纯文本内容： ```R characters |> html_element("b") |> html_text2() #> [1] "C-3PO" "R4-P17" "R2-D2" "Yoda" characters |> html_element(".weight") |> html_text2() #> [1] "167 kg" NA "96 kg" "66 kg" ``` 需要注意的是，任何转义字符都会被自动处理，我们只会在源HTML中看到HTML转义，

最低0.47元/天解锁专栏

买1年送3月

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

网页数据抓取：从HTML到R的数据提取

相关推荐

专栏目录

网页数据抓取：从HTML到R的数据提取

相关推荐

Python网页数据抓取以及表格的制作

运用正则抓取网页数据

Python网络抓取：从网页提取数据的Personal_Project_1教程

诺贝尔数据抓取：从基础到高级技巧

hs数据抓取指南：从网页到CSV文件的步骤

亚马逊Prime视频数据抓取：Python代码实现与分析

网络爬虫与数据抓取：R语言实战

数据处理与网页抓取：JSON与HTML实战指南

R语言API集成与数据抓取：自动化获取数据的秘密

网页抓取基础：从网络获取高质量数据

数仓--理论知识

【高仿模板】丽子美妆.zip

专栏目录

最新推荐

信息系统集成与测试实战

Ansible高级技术与最佳实践

实时资源管理：Elixir中的CPU与内存优化

开源安全工具：Vuls与CrowdSec的深入剖析

轻量级HTTP服务器与容器化部署实践

PowerShell7在Linux、macOS和树莓派上的应用指南

容器部署与管理实战指南

基于属性测试的深入解析与策略探讨

构建交互式番茄钟应用的界面与功能

RHEL9系统存储、交换空间管理与进程监控指南