虚拟肿瘤标志物识别与肿瘤诊断预测
立即解锁
发布时间: 2025-08-17 01:45:55 阅读量: 1 订阅数: 4 

### 虚拟肿瘤标志物识别与肿瘤诊断预测
在肿瘤诊断领域,利用数据驱动的数学模型来预测肿瘤标志物值和肿瘤诊断结果是一项重要的研究。下面将详细介绍相关的研究过程和结果。
#### 1. 数据预处理
在分析数据并用于训练基于数据的肿瘤诊断估计器之前,需要对可用数据进行预处理。具体步骤如下:
1. **线性缩放变量**:将所有变量线性缩放到区间 [0, 1]。对于每个变量 \(v_i\),从所有包含的值中减去最小值 \(min_i\),然后将结果除以 \(min_i\) 与最大合理值 \(maxplau_i\) 之间的差值。所有大于给定最大合理值的值都替换为 1.0。
2. **合并样本**:将属于同一患者且测量数据差异不超过一天的所有样本合并,以减少数据矩阵中缺失值的数量。在极少数情况下,某个变量可能有多个值,此时使用第一个值。
3. **重新排列和聚类测量值**:根据患者的 ID 对所有测量值进行样本级别的重新排列和聚类,以防止某些患者的数据同时包含在训练数据和测试数据中。
在开始训练分类器的建模算法之前,还需要为每个分析的目标肿瘤 \(t_i\) 编译单独的数据集:
1. **合并数据**:将血液参数测量值与诊断结果合并,只考虑时间差小于一个月的测量值和诊断结果。
2. **提取样本**:提取所有包含 \(t_i\) 测量值的样本。
3. **移除无效样本**:移除包含少于 15 个有效值的所有样本。
4. **移除无效变量**:从数据库中移除有效值少于 10% 的变量。
这个过程为每个肿瘤标志物 \(t_i\) 生成一个专门的数据集 \(dst_i\)。以下是部分癌症类型数据集的统计信息:
| 癌症类型 | 输入变量 | 总样本数 | 类别 0 样本数 | 类别 1 样本数 | 缺失值比例 |
| --- | --- | --- | --- | --- | --- |
| 乳腺癌 | AGE, SEX, AFP, ALT, AST, BSG1, BUN, C125, C153, C199, C724, CBAA, CEA | 706 | 324 (45.9%) | 382 (54.1%) | 46.67% |
| 黑色素瘤 | CEOA, CH37, CHOL, CLYA, CMOA, CNEA, CRP, CYFS | 905 | 485 (53.6%) | 420 (46.4%) | 47.79% |
| 呼吸系统癌症 | FE, FER, FPSA, GT37, HB, HDL, HKT, HS, KREA, LD37, MCV, NSE, PLT, PSA, PSAQ, RBC, S100, SCC, TBIL, TF, TPS, WBC | 2363 | 1367 (57.9%) | 996 (42.1%) | 44.76% |
#### 2. 测试系列和结果
采用五折交叉验证的训练/测试系列,即将可用数据分成五个(大致)相等大小的互补子集,在每个训练/测试周期中,选择一个数据子集作为测试集,其余数据作为训练样本。
使用了多种方法来识别选定肿瘤类型的估计模型,包括线性建模、kNN 建模、人工神经网络(ANNs)、支持向量机(SVMs),并使用具有严格后代选择(OS)的遗传算法来优化变量选择和建模参数。还应用了简单线性回归和具有严格后代选择的遗传编程(OSGP)。
以下是部分癌症类型的建模结果:
##### 乳腺癌诊断建模结果
| 建模方法 | 使用肿瘤标志物(TMs)测试准确率(μ, σ) | 不使用肿瘤标志物测试准确率(μ, σ) |
| --- | --- | --- |
| LR,全特征集 | 79.32%, 1.06 | 70.63%, 1.28 |
| OSGA + LR, α = 0.0 | 81.78%, 0.21 | 73.13%, 0.36 |
| OSGA + LR, α = 0.1 | 81.49%, 1.18 | 72.66%, 0.14 |
| OSGA + LR, α = 0.2 | 81.44%, 0.37 | 71.40%, 0.57 |
| OSGA + kNN, α = 0.0 | 79.21%, 0.78 | 74.22%, 2.98 |
| OSGA + kNN, α = 0.1 | 78.99%, 0.57 | 75.55%, 0.87 |
| OSGA + kNN, α = 0.2 | 78.33%, 1.04 | 74.50%, 0.20 |
| OSGA + ANN, α = 0.0 | 81.41%, 1.14 | 75.60%, 2.47 |
| OSGA + ANN, α = 0.1 | 80.19%, 1.68 | 72.38%, 6.08 |
| OSGA + ANN, α = 0.2 | 79.37%, 1.17 | 70.54%, 6.10 |
| OSGA + SVM, α = 0.0 | 81.23%, 1.10 | 73.90%, 2.36 |
| OSGA + SVM, α = 0.1 | 80.46%, 1.80 | 72.19%, 0.94 |
| OSGA + SVM, α = 0.2 | 77.43%, 3.55 | 71.89%, 0.70 |
| OSGP, ms = 50 | 79.72%, 1.80 | 75.32%, 0.45 |
| OSGP, ms = 100 | 75.50%, 4.95 | 71.63%, 2.75 |
| OSGP, ms = 150 | 79.20%, 6.60 | 75.75%, 2.16 |
##### 黑色素瘤诊断建模结果
| 建模方法 | 使用肿瘤标志物(TMs)测试准确率(μ, σ) | 不使用肿瘤标志物测试准确率(μ, σ) |
| --- | --- | --- |
| LR,全特征集 | 73.81%, 3.39 | 71.09%, 4.14 |
| OSGA + LR, α = 0.0 | 72.45%, 4.69 | 72.36%, 2.30 |
| OSGA + LR, α = 0.1 | 74.73%, 2.35 | 72.09%, 4.01 |
| OSGA + LR, α = 0.2 | 73.85%, 2.54 | 72.70%, 2.02 |
| OSGA + kNN, α = 0.0 | 68.77%, 2.38 | 71.00%, 1.97 |
| OSGA + kNN, α = 0.1 | 71.33%, 0.27 | 70.21%, 3.41 |
| OSGA + kNN, α = 0.2 | 67.33%, 0.31 | 69.65%, 3.14 |
| OSGA + ANN, α = 0.0 | 74.78%, 1.63 | 69.17%, 2.97 |
| OSGA + ANN, α = 0.1 | 73.81%, 2.23 | 71.82%, 0.61 |
| OSGA + ANN, α = 0.2 | 74.12%, 1.03 | 71.40%, 0.49 |
| OSGA + SVM, α = 0.0 | 69.72%, 7.57 | 68.87%, 4.78 |
| OSGA + SVM, α = 0.1 | 71.75%, 4.88 | 68.22%, 1.88 |
| OSGA + SVM, α = 0.2 | 61.48%, 3.99 | 63.20%, 2.09 |
| OSGP, ms = 50 | 71.24%, 9.54 | 74.89%, 3.66 |
| OSGP, ms = 100 | 69.91%, 5.20 | 65.16%, 13.06 |
| OSGP, ms = 150 | 71.79%, 4.31 | 70.13%, 3.60 |
##### 呼吸系统癌症诊断建模结果
| 建模方法 | 使用肿瘤标志物(TMs)测试准确率(μ, σ) | 不使用肿瘤标志物测试准确率(μ, σ) |
| --- | --- | --- |
| LR,全特征集 | 91.32%, 0.37 | 85.97%, 0.27 |
| OSGA + LR, α = 0.0 | 91.57%, 0.46 | 86.41%, 0.36 |
| OSGA + LR, α = 0.1 | 91.16%, 1.18 | 85.80%, 0.45 |
| OSGA + LR, α = 0.2 | 89.45%, 0.37 | 85.02%, 0.15 |
| OSGA + kNN, α = 0.0 | 90.98%, 0.84 | 87.09%, 0.46 |
| OSGA + kNN, α = 0.1 | 90.01%, 2.63 | 87.
0
0
复制全文
相关推荐









