保存最优参数和性能部分再加上保存最优参数的评价指标值:#3:不含气候变量机器学习模型构建 index_list <- lapply(1:k, function(i) which(folds != i)) ctrl_unified <- trainControl( method = "cv", number = 10, index = index_list, # 使用转换后的索引 skip = TRUE, savePredictions = "final", summaryFunction = defaultSummary ) #KKNN模型训练 tuneGrid_knn <- expand.grid( kmax = seq(3, 10, by = 1), distance = 2, kernel = c("triangular", "rectangular", "epanechnikov") ) model_knn_tuned <- train( D ~ t, data = data, method = "kknn", trControl = ctrl_unified, # 使用统一控制对象 tuneGrid = tuneGrid_knn, metric = "RMSE" ) ggplot(model_knn_tuned$results, aes(x = kmax, y = RMSE, color = kernel)) + geom_line(linewidth = 1) + geom_point(size = 2) + labs(title = "", x = "k", y = "RMSEcv") + theme_bw() + scale_color_brewer(palette = "Set1") + theme(legend.position = "top") #SVM模型训练 tuneGrid_svm_opt <- expand.grid( C = c(0.1, 1, 10), sigma = seq(0.1,1,by=0.1) ) model_svm_tuned <- train( D ~ t, data = data, method = "svmRadial", trControl = ctrl_unified, # 使用统一控制对象 tuneGrid = tuneGrid_svm_opt, metric = "RMSE" ) if(!is.null(model_svm_tuned)) { # 提取最佳参数 best_params <- model_svm_tuned$bestTune cat("最佳参数: C =", best_params$C, "sigma =", best_params$sigma, "\n") # 生成RMSE-sigma关系图 results <- model_svm_tuned$results ggplot(results, aes(x = sigma, y = RMSE, color = factor(C))) + geom_line(linewidth = 1) + geom_point(size = 2) + labs(title = "", x = "Sigma", y = "RMSEcv", color = "C") + theme_bw() + theme(legend.position = "top") } else { message("模型训练失败,请检查数据或参数设置") } #ANN模型训练 tuneGrid_ann <- expand.grid( size = seq(2, 11, by = 1), decay = c(0.0001, 0.001, 0.01, 0.1) ) model_ann_tuned <- train( D ~ t, data = data, method = "nnet", trControl = ctrl_unified, # 使用统一控制对象 tuneGrid = tuneGrid_ann, linout = TRUE, trace = FALSE, metric = "RMSE", MaxNWts = 20000, maxit = 1000 ) ggplot(model_ann_tuned$results, aes(x = size, y = RMSE, color = as.factor(decay))) + geom_line(linewidth = 1) + # 使用linewidth替代size geom_point(size = 2) + labs(title = "", x = "Size", y = "RMSEcv", color = "Decay") + theme_bw() + scale_color_brewer(palette = "Set1") + theme(legend.position = "top") #RF模型训练 tuneGrid_rf <- expand.grid(mtry = 1) model_rf_tuned <- train( D ~ t, data = data, method = "rf", trControl = ctrl_unified, # 使用统一控制对象 tuneGrid = tuneGrid_rf, metric = "RMSE", ntree = 500 ) #提取所有参数组合的结果 all_results <- bind_rows( model_knn_tuned$ results %>% mutate(Model = "KKNN"), model_svm_tuned$ results %>% mutate(Model = "SVM"), model_ann_tuned$ results %>% mutate(Model = "ANN"), model_rf_tuned$ results %>% mutate(Model = "RF") ) %>% select(Model, everything()) #保存所有参数组合结果 write.csv(all_results, "bhMLwoc.csv", row.names = FALSE) #保存最优模型参数和性能 best_params <- bind_rows( model_knn_tuned$ bestTune %>% mutate(Model = "KKNN"), model_svm_tuned$ bestTune %>% mutate(Model = "SVM"), model_ann_tuned$ bestTune %>% mutate(Model = "ANN"), model_rf_tuned$ bestTune %>% mutate(Model = "RF") ) write.csv(best_params, "bhMLwocbest.csv", row.names = FALSE)
时间: 2025-07-30 19:28:36 浏览: 5
<think>我们正在处理一个R语言中的机器学习模型训练和评估问题。用户提供了多个模型的训练代码(KKNN,SVM,ANN,RF),并希望保存最优参数和性能指标(RMSE)。此外,用户还希望将最优参数的评价指标值(如RMSE)也保存起来。当前代码已经做了以下工作:1.定义了一个统一的交叉验证控制对象(ctrl_unified),使用了10折交叉验证,并指定了索引。2.分别训练了四个模型:KKNN、SVM(径向基核)、ANN(神经网络)和RF(随机森林)。3.对每个模型都进行了调参,并绘制了调参过程中的RMSE变化图。4.将所有模型的调参结果(所有参数组合的结果)合并到一个数据框(all_results)并保存到CSV文件。5.将所有模型的最优参数(bestTune)合并并保存到另一个CSV文件(bhMLwocbest.csv)。但是,用户要求保存最优参数的同时,还要保存最优参数对应的性能指标值(比如RMSE、Rsquared等)。在当前的代码中,best_params只保存了最优参数,没有保存对应的性能指标。因此,我们需要修改代码,使得在保存最优参数的同时,也保存该最优参数对应的性能指标(例如RMSEcv)。我们可以从每个模型的结果中提取最优参数对应的行,该行包含了最优参数以及对应的各种性能指标(如RMSE、Rsquared等)。具体步骤:1.对于每个训练好的模型(如model_knn_tuned),其`results`数据框中包含了所有参数组合的交叉验证结果。2.每个模型对象中有一个`bestTune`,它指明了最优参数组合。我们可以用这个最优参数组合去`results`中匹配出对应的行,从而得到最优参数组合下的所有性能指标。3.然后,我们提取这些信息并保存。修改后的保存最优参数和性能的代码:我们将创建一个新的数据框`best_performance`,它包含以下列:-Model:模型名称-最优参数(每个模型的参数名不同)-性能指标(如RMSE、Rsquared等)由于每个模型的最优参数不同,我们需要分别处理每个模型,然后合并。注意:在训练模型时,我们使用的是`metric="RMSE"`,所以最佳参数是根据RMSE最小选择的。因此,在结果中我们关注RMSE,但也可以保存其他指标。修改后的代码:```r#创建一个空的数据框来存储最优参数和性能best_performance<-data.frame()#对于每个模型,提取最优参数对应的性能指标models<-list(list(model=model_knn_tuned,name="KKNN"),list(model=model_svm_tuned,name="SVM"),list(model=model_ann_tuned,name="ANN"),list(model=model_rf_tuned,name="RF"))for(minmodels){#获取模型对象和名称model_obj<-m$modelmodel_name<-m$name#获取最优参数组合best_tune<-model_obj$bestTune#在results中匹配最优参数对应的行#由于参数可能有多个,我们使用merge来匹配results<-model_obj$results#将最优参数与结果合并,只保留匹配的行best_row<-merge(best_tune,results)#如果匹配到多行,取第一行(理论上最优参数组合应该只匹配一行)if(nrow(best_row)>0){best_row<-best_row[1,]#添加模型名称best_row$Model<-model_name#将这一行添加到best_performance中best_performance<-rbind(best_performance,best_row)}}#保存最优参数和性能write.csv(best_performance,"bhMLwocbest_performance.csv",row.names=FALSE)```这样,`best_performance`数据框就包含了每个模型的最优参数和对应的性能指标(包括RMSE等)。我们将其保存为"bhMLwocbest_performance.csv"。另外,用户还要求保存最优参数的评价指标值。上面的代码已经实现了这一点。注意:在RF模型中,我们只调整了mtry一个参数,并且设置为1(因为公式中只有一个自变量t,所以mtry=1)。但是,随机森林还有其他参数(如ntree)我们固定为500。在保存结果时,我们只保存了调优参数(mtry),但性能指标是在ntree=500下得到的。这没有问题,因为ntree不在调优网格中。现在,我们将修改后的代码整合到用户原有的代码中。注意:在原有代码中,用户已经保存了所有参数组合的结果(all_results)和最优参数(best_params)。我们现在用`best_performance`替代原来的`best_params`的保存,或者我们可以同时保存两个?用户要求保存最优参数和性能,所以保存`best_performance`即可。因此,我们可以将原来的保存最优参数的代码替换为保存最优参数和性能的代码。同时,我们也可以保留原来的最优参数(不含性能)的保存,但为了满足用户要求,我们重点保存`best_performance`。为了清晰,我们可以:1.保留原来的`all_results`保存(所有参数组合的结果)。2.保存`best_performance`(包含最优参数和性能指标)到新的文件。修改后的完整代码(从训练后开始)如下:```r#...[之前的模型训练代码]#提取所有参数组合的结果all_results<-bind_rows(model_knn_tuned$results%>%mutate(Model="KKNN"),model_svm_tuned$results%>%mutate(Model="SVM"),model_ann_tuned$results%>%mutate(Model="ANN"),model_rf_tuned$results%>%mutate(Model="RF"))%>%select(Model,everything())#保存所有参数组合结果write.csv(all_results,"bhMLwoc.csv",row.names=FALSE)#创建空的数据框来存储最优参数和性能best_performance<-data.frame()models<-list(list(model=model_knn_tuned,name="KKNN"),list(model=model_svm_tuned,name="SVM"),list(model=model_ann_tuned,name="ANN"),list(model=model_rf_tuned,name="RF"))for(minmodels){model_obj<-m$modelmodel_name<-m$namebest_tune<-model_obj$bestTuneresults<-model_obj$results#合并最优参数和结果best_row<-merge(best_tune,results)if(nrow(best_row)>0){best_row<-best_row[1,]best_row$Model<-model_namebest_performance<-rbind(best_performance,best_row)}}#保存最优参数和性能write.csv(best_performance,"bhMLwocbest_performance.csv",row.names=FALSE)```这样,我们就保存了每个模型的最优参数及其对应的性能指标(包括RMSE等)。注意:在合并最优参数和结果时,我们使用`merge`,它会根据共同的列名进行合并。由于每个模型的调优参数不同,所以合并时只会匹配调优参数相同的行。由于最优参数组合在结果中是唯一的,所以匹配后应该只有一行。但是,有一个潜在问题:如果最优参数组合在结果中匹配到了多行(比如因为其他非调优参数列相同),我们取了第一行。这种情况很少,因为调优参数组合应该是唯一的。另外,在ANN模型中,我们调整了size和decay,而RF模型只调整了mtry(固定为1)。其他模型类似。最后,我们还需要注意,在模型训练时,我们使用了统一的交叉验证控制(ctrl_unified),所以每个模型的交叉验证折数是一致的,具有可比性。相关问题:根据用户的问题,我们提出以下相关问题:1.如何解释不同模型的最优参数性能比较?2.除了RMSE,还有哪些常用的回归模型评价指标?3.在调参过程中,如何避免过拟合?4.如果增加更多的特征(变量),代码需要如何调整?按照要求,我们将相关问题放在最后,格式如下。</think>### 解决方案:保存最优参数和性能指标
在R中使用`caret`包训练机器学习模型时,需要同时保存最优参数组合及其对应的性能指标值。以下是优化后的代码实现:
```r
# 保存最优参数和性能指标(包含评价指标值)
best_performance <- bind_rows(
model_knn_tuned$results %>%
filter(kmax == model_knn_tuned$bestTune$kmax,
kernel == model_knn_tuned$bestTune$kernel) %>%
mutate(Model = "KKNN"),
model_svm_tuned$results %>%
filter(C == model_svm_tuned$bestTune$C,
sigma == model_svm_tuned$bestTune$sigma) %>%
mutate(Model = "SVM"),
model_ann_tuned$results %>%
filter(size == model_ann_tuned$bestTune$size,
decay == model_ann_tuned$bestTune$decay) %>%
mutate(Model = "ANN"),
model_rf_tuned$results %>%
filter(mtry == model_rf_tuned$bestTune$mtry) %>%
mutate(Model = "RF")
) %>%
select(Model, RMSE, Rsquared, MAE, best_params = everything())
# 保存结果到CSV
write.csv(best_performance, "bhMLwocbest_performance.csv", row.names = FALSE)
```
### 代码解释:
1. **最优参数筛选**:
- 使用`filter()`从每个模型的完整结果中精确匹配最优参数组合
- 例如KKNN模型:`filter(kmax == bestTune$kmax, kernel == bestTune$kernel)`
2. **性能指标提取**:
- 自动包含`caret`默认计算的评价指标:RMSE(均方根误差)、Rsquared(决定系数)、MAE(平均绝对误差)
- 使用`mutate()`添加模型名称列
3. **数据结构优化**:
- `best_params = everything()`将所有参数保存到单个列中
- 最终数据框包含模型名称、性能指标和最优参数
4. **结果保存**:
- 使用`write.csv`保存为CSV文件,包含所有关键信息
- 文件命名为"bhMLwocbest_performance.csv"以区分原始结果
### 输出文件示例:
| Model | RMSE | Rsquared | MAE | best_params |
|-------|------------|----------|------------|-----------------------------------------|
| KKNN | 0.25 | 0.89 | 0.20 | kmax=5, distance=2, kernel=triangular |
| SVM | 0.22 | 0.91 | 0.18 | C=10, sigma=0.3 |
| ANN | 0.24 | 0.90 | 0.19 | size=8, decay=0.01 |
| RF | 0.26 | 0.88 | 0.21 | mtry=1 |
### 关键改进:
1. **参数与性能绑定**:将最优参数与其对应的性能指标值保存在同一行
2. **完整指标**:包含多个回归评价指标(RMSE/Rsquared/MAE)
3. **结构清晰**:每个模型的最优结果独立成行,便于后续分析比较
4. **自动化处理**:直接从模型对象提取结果,避免手动记录错误
阅读全文