色谱指纹特征选择与小麦害虫图像分割研究
立即解锁
发布时间: 2025-08-30 01:45:36 阅读量: 10 订阅数: 30 AIGC 

### 色谱指纹特征选择与小麦害虫图像分割研究
#### 色谱指纹特征选择
在色谱指纹特征选择方面,随机森林是一种强大的集成分类回归算法。它由大量决策树组成,自从 2001 年被 Leo Breiman 提出后,已广泛应用于生态学、天文学、药物发现等众多领域。与其他分类回归算法相比,随机森林具有以下特点:
1. 具有良好的估计性能,在部分数据缺失时仍能保持准确性。
2. 可用于确定每个特征的变量重要性。
3. 由于不过拟合,具有良好的泛化能力。
当随机森林使用 Bagging 方法生成自助训练集时,原始训练集近 37%的数据不会出现在自助训练集中,这些数据被称为自助训练集的袋外数据(OOB)。OOB 数据不仅可用于估计模型的泛化误差,还能计算变量重要性并进行特征选择。变量重要性方法的步骤如下:
1. 创建随机森林模型。
2. 使用 OOB 数据测试模型,得到 OOB 估计准确率 AAC。
3. 假设样本共有 M 个特征,对于第 i 个特征,随机打乱所有样本中该特征的特征值(或随机添加一些噪声),然后使用更改后的 OOB 数据测试原始模型,得到另一个准确率 $AAC_i$。变量重要性定义为:$diff_i = AAC - AAC_i$。
4. 通过上述方法可得到变量重要性集合 $\{diff_1, diff_2, \cdots, diff_m\}$。$diff_i$ 的值越大,该变量对估计准确率的影响就越大。
单一特征选择方法存在局限性,可能无法取得满意结果。为获得更好性能,提出了一种将线性方法和变量重要性方法相结合的特征选择方法。不选择 PCA 的原因是 PCA 变换后的特征与原始特征不同,难以与其他方法得到的特征进行交集运算。在实验中,选择线性相关方法和变量重要性方法作为 A 和 B 方法。通过 A 和 B 方法分别得到特征集 $S_A = \{A_1, A_2, \cdots, A_c\}$ 和 $S_B = \{B_1, B_2, \cdots, B_m\}$,则使用该方法得到的特征 $S_u$ 可表示为:
$S_u = (R_A^P \cap R_B^P) \cup \bigcup_{i = 1}^{I} R_A^i \cup \bigcup_{k = 1}^{K} R_B^k$
其中,$R_A^P \cap R_B^P = \{t | t \in R_A^P \land t \in R_B^P\}$,$R_A^P = \{A_1, A_2, \cdots, A_I\}$ 和 $R_B^P = \{B_1, B_2, \cdots, B_K\}$ 分别是 A 方法和 B 方法选择的重要特征,I 和 K 分别是特征集 $R_A^P$ 和 $R_B^P$ 中的特征数量。
为验证该方法的有效性,选取海南近海盆地文昌 13 - 1/2 油田的原油样本进行实验。这些样本分为 12 组,每组有 25 个编号为 1 - 25 的色谱指纹特征。使用原始特征、PCA 方法、线性相关方法、变量重要性方法和提出的方法进行特征选择,并采用广义相加模型(GAM)构建回归模型。为验证所选特征的性能,进行留一法交叉验证,并采用均方根误差(RMSE)评估各方法的性能,RMSE 计算公式为:
$RMSE = \sqrt{\frac{1}{N} \sum_{i = 1}^{N} (y_i - \hat{y}_i)^2}$
其中,N 是样本数量,$y_i$ 和 $\hat{y}_i$ 分别是实际值和估计值。
不同特征选择方法的 RMSE 比较如下表所示:
| 特征选择方法 | RMSE |
| --- | --- |
| NONE(原始特征) | 32.2% |
| PCA | 16.36% |
| LIN(线性相关方法) | 15.6% |
| IMP(变量重要性方法) | - |
| COMB(提出的方法) | 9.96% |
从表中可以看出,使用原始特征时 RMSE 最高,结果最差;PCA 方法使性能有了很大提升;线性相关方法选择相关系数大于 0.95 的特征(特征编号为 2、3、5、8、9、10、13)进行回归建模,RMSE 略优于 PCA;变量重要性方法排除变量重要性为负的特征,选择变量重要性高的特征(1、2、3、4、9、11)作为最终特征;提出的方法通过公式计算得到最终特征(2、3、5、8、9、10),RMSE 为 9.96%,性能明显优于其他方法。
mermaid 流程图如下:
```mermaid
graph LR
A[创建随机森林模型] --> B[使用 OOB 数据测试模型]
B --> C[随机打乱特征值或添加噪声]
C --> D[使用更改后的 OOB 数据测试模型]
D --> E[计算变量重要性]
E --> F[选择重要特征]
```
#### 小麦害虫图像分割
小麦害虫是小麦生产的重要影响因素,图像分割是小麦害虫图像识
0
0
复制全文
相关推荐








