无监督关键短语提取与社交媒体营销分析
立即解锁
发布时间: 2025-08-30 01:50:15 阅读量: 6 订阅数: 23 AIGC 

# 无监督关键短语提取与社交媒体营销分析
## 无监督关键短语提取
### 关键短语语料库特征分析
对四个公共关键短语提取语料库(DUC - 2001、Inspec、NUS、SemEval - 2010)的特征进行了分析,具体数据如下表所示:
| 语料库 | 类型 | 测试文档数量 | 关键词数量 | 单关键词数量 | 形容词 + 名词关键词数量 | 含分词关键词数量 | 其他模式关键词数量 | 文本中存在的关键词数量 | 文本中存在的形容词 + 名词关键词数量 | 文本中存在的含分词关键词数量 | 文本中存在的其他模式关键词数量 |
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
| DUC - 2001 | 新闻文章 | 308 | 2484 | 431 (17.4%) | 2298 (92.5%) | 53 (2.1%) | 133 (5.4%) | 2462 (99.1%) | 2277 (91.7%) | 53 (2.1%) | 132 (5.3%) |
| Inspec | 论文摘要 | 500 | 4913 | 659 (13.4%) | 4221 (85.9%) | 383 (7.8%) | 309 (6.3%) | 3826 (77.9%) | 3338 (68%) | 287 (5.8%) | 201 (4.1%) |
| NUS | 论文摘要 | 211 | 2327 | 610 (26.2%) | 1903 (81.8%) | 206 (8.9%) | 218 (9.4%) | 2200 (94.5%) | 1837 (78.9%) | 178 (7.6%) | 185 (8%) |
| SemEval - 2010 | 论文摘要 | 100 | 1482 | 309 (20.9%) | - (84.5%) | - (7.2%) | - (8.3%) | - (89.5%) | - (80%) | - (3.2%) | - (6.3%) |
从表中可以看出,平均约 86.2% 的关键短语遵循形容词和名词的模式,约 90% 的标注关键短语实际存在于文本中,而文本中遵循形容词和名词模式的关键短语平均占比为 79.6%。因此,仅涉及形容词和名词时,提取性能的最高召回率低于 80%。
### 名词短语模式提取候选关键短语分析
由于约 86% 的关键短语是形容词和名词的组合,以往工作常使用一种模式来合并相邻的形容词和名词以收集名词短语。考虑到比较级和最高级形容词也会出现在关键短语中,将名词短语的模式修改为正则表达式:
```plaintext
(JJ|JJR|JJS)*(NN|NNS|NNP|NNPS)+
```
又因为平均有 6.5% 的现在分词和过去分词形式的动词在关键短语中起到形容词和名词的作用,所以将它们纳入名词短语模式,并引入另一个模式:
```plaintext
(JJ|JJR|JJS|VBG|VBN)*(NN|NNS|NNP|NNPS|VBG)+
```
对候选关键短语进行加权并提取,实验在四个公共语料库上进行,并遵循 SemEval - 2010 的评估标准。提取每个文档中权重最高的 15 个关键短语,包括 1 个单关键短语和 14 个复合关键短语。与 TFIDF n - grams 基线方法进行比较,结果如下表所示:
| 语料库 | 模式 | 精度 | 召回率 | F1 值 |
| --- | --- | --- | --- | --- |
| DUC - 2001 | Pattern(adj + noun) | 21.3 | 39.6 | 27.7 |
| DUC - 2001 | Pattern(+participle) | 20.8 | 38.8 | 27.1 |
| DUC - 2001 | TFIDF n - grams | - | - | 27.0 |
| Inspec | Pattern(adj + noun) | 35.4 | 44.9 | 39.6 |
| Inspec | Pattern(+participle) | 34.0 | 44.6 | 38.6 |
| Inspec | TFIDF n - grams | - | - | 36.3 |
| NUS | Pattern(adj + noun) | 15.7 | 20.2 | 17.7 |
| NUS | Pattern(+participle) | 14.9 | 19.6 | 16.9 |
| NUS | TFIDF n - grams | - | - | 6.6 |
| SemEval - 2010 | Pattern(adj + noun) | 21.0 | 20.7 | 20.8 |
| SemEval - 2010 | Pattern(+participle) | 19.4 | 19.4 | 19.4 |
| SemEval - 2010 | TFIDF n - grams | 14.9 | 15.3 | 15.1 |
结果表明,该技术在所有语料库上的性能都优于 TFIDF n - grams 基线方法。但当在关键短语模式中添加现在分词和过去分词形式的动词时,性能有所下降。原因是修饰名词短语含义的分词会与句子中的动词混淆,例如“indicated differing levels”会被错误地提取为关键短语。
### 利用句法信息提取候选关键短语
提出了一种利用句法信息(浅层和深层)来提高关键短语提取性能的新技术,具体步骤如下:
1. 解析文档中的所有句子以获取句法信息;
2. 收集名词短语作为候选关键短语;
3. 对候选关键短语进行后处理,确保其格式良好;
4. 为候选关键短语分配权重以表示其重要性;
5. 收集权重最高的候选关键短语作为最终的关键短语。
后处理步骤是为了确保候选关键短语格式良好,通过两种方式去除不必要的标记:
- 候选关键短语以 POS 标签为 JJ、JJR、JJS、NN、NNS、
0
0
复制全文
相关推荐








