文本摘要与心脏病预测技术解析
立即解锁
发布时间: 2025-08-31 00:30:55 阅读量: 11 订阅数: 20 AIGC 

### 文本摘要与心脏病预测技术解析
#### 1. 抽象多文档摘要方法
在文本摘要领域,为解决多文档摘要问题,提出了一种结合多种技术的方法。
- **主要技术**
- **Bi - LSTM编码器 - 解码器与注意力机制**:对于短句子,编码器可计算整个输入词序列的固定长度向量,解码器根据完整词序列猜测输出序列。但对于长句子,这种方式效果不佳,因此引入注意力机制。编码器由三个LSTM层堆叠而成,LSTM编码器读取整个输入序列,在每个时间步处理信息并向编码器提供一个词,从而捕获整个输入信息序列。解码器中的LSTM逐字分析整个目标序列,并提前一个时间步预测序列,它根据前一个词来预测下一个词。在解码测试序列时,需配置推理架构,将整个词序列编码,把编码器的最终状态作为输入传递给解码器,在每个时间步运行解码器,输出下一个词的概率,生成下一个词后更新内部状态,并将所选词作为下一个时间步的输入,重复此过程直到遇到 <end> 标记或目标序列达到最大长度。
- **指针生成网络(PGN)与收敛机制**:PGN包含指向词和生成词两部分。指向用于从源文本复制词,生成词则从固定词库中生成。PGN的最终分布由注意力分布和词汇分布相加得到。上下文向量(CV)是固定长度的向量表示,词汇分布通过将CV与解码器状态拼接并经过另外两层得到。通过对CV和解码器状态应用Softmax函数计算概率分布pv。最终分布由pgen和pv(w)计算得出。PGN的主要优点是能够处理词汇外(OOV)的词。收敛机制(CM)使用注意力分布来跟踪已覆盖的词,避免重复使用相同的词,其覆盖向量ct是所有先前解码器时间步的注意力分布之和。
- **工作流程**
1. 输入多个文档,进行预处理以避免杂乱和未清理的数据导致不良结果。
2. 使用编码器 - 解码器机制将文档中的文本转换为向量。
3. 应用Bi - LSTM进行文档分类。
4. 使用Seq - to - Seq注意力模型的两种正交方式(PGN和CM)处理OOV词并预测摘要中的冗余词。
5. 最终生成抽象摘要。
- **算法步骤**
1. 开始
2. 计算覆盖向量ht:$ht = \sum_{j = 1}^{Tx} \alpha_{ij}h_i$
3. 计算注意力权重$\alpha_{ij} = \frac{exp(a_{ij})}{\sum_{k = 1}^{Tx} exp(a_{ik})}$
4. 计算注意力分布$a_{ij} = f(s_{i - 1}, h_i)$
5. 对st和ht应用Softmax函数得到pv:$pv = softmax(v'(v[st, ht] + b) + b')$
6. $P(w) = pv(w)$
7. 使用ht、st、xt计算pgen:$pgen = \sigma(w_h^T ht + w_s^T st + w_x^T xt + b_{ptr})$
8. 使用pgen和pv(w)得到P(w):$p(w) = pgen pv(w) + (1 - pgen) \sum_{i: w_i = w} a_{t_i}$
9. 计算覆盖向量$c_{t_i} = \sum_{t' = 1}^{t - 1} a_{t'}$
10. 计算覆盖损失$Closst = \sum_{i} min(a_{t_i}, c_{t_i})$
11. 结束
#### 2. 数据集描述
使用来自Kaggle网站的‘Amazon Fine Food Reviews’数据集,该数据集有568,454条记录(评论数量)、256,059个用户和74,258个产品。评论分为负面(最差评论 - 1,坏评论 - 2)、中性(平均评论 - 3)和正面(好评论 - 4,非常好评论 - 5)。数据集的属性包括产品ID、用户ID、个人资料名称、有用性、评分、时间、摘要、文本、有用性分子和有用性分母。
#### 3. 实验评估
- **数据划分与参数设置**:大约考虑数据集中的500,000条评论,将整个数据集分为训练集和测试集,输入和输出标签分别为x和y。总输入词汇(x_voc)计数为31152,输出词汇(y_voc)计数为33,414。使用损失函数、验证损失(Val - loss)、准确率和验证准确率(Val - accu)等参数来衡量性能。单轮(迭代)批次大小为512。当损失函数减小时,验证损失会增加,生成轮次直到损失函数最小化或验证损失最大化,一旦验证损失增加,训练即可停止。基于rmsprop优化器、Sparse - Categorical - Cross - entropy损失函数和准确率进行验证。
- **实验结果**
| 数据集中的摘要 | 模型生成的摘要 | ROUGE1召回率 | ROUGE - 1准确率 | ROUGE1 F1 - 分数 |
| --- | --- | --- | --- | --- |
| The sun was setting on a sunny day in May. John laid in the garden when a quick brown fox jumped over him. Ricky is our pet | The
0
0
复制全文
相关推荐









