活动介绍

回归分析:从逻辑回归到负二项回归的探索

立即解锁
发布时间: 2025-08-19 01:04:05 阅读量: 1 订阅数: 2
PDF

精通R语言的数据分析与应用

### 回归分析:从逻辑回归到负二项回归的探索 #### 1. 逻辑回归的数据考量 逻辑回归模型基于观测值相互独立的假设运行。若观测值为连续年份,该假设便会被违背。偏差残差和其他诊断统计量有助于验证模型,检测诸如连接函数指定错误等问题,可参考 `LogisticDx` 包获取更多信息。 一般而言,逻辑回归模型要求每个预测变量至少对应 10 个事件,这里的事件指响应中出现频率较低类别的观测值。以死刑案例为例,死亡在响应中属较少出现的类别,数据库中有 68 个死刑判决,据此规则,最多允许 6 - 7 个预测变量。 回归系数通过最大似然法估计。由于不存在获取这些最大似然估计的封闭数学形式,R 采用优化算法。有时可能会收到算法未收敛的错误信息,这意味着无法找到合适的解决方案,可能由预测变量过多、事件过少等多种原因导致。 #### 2. 模型拟合优度 评估模型性能的一个指标是整体模型的显著性。相应的似然比检验用于判断给定模型是否比仅含截距的零模型拟合效果显著更好。 要获取检验结果,需查看输出中的残差偏差,它衡量观测和拟合对数似然函数最大值之间的差异。逻辑回归遵循最大似然原则,目标是最小化偏差残差之和,此残差与线性回归中的原始残差类似,线性回归的目标是最小化残差平方和。 零偏差表示仅含截距的模型对响应的预测效果。判断模型时,需将残差偏差与零偏差进行比较,二者差值服从卡方分布,可使用 `lmtest` 包中的检验函数: ```R library(lmtest) lrtest(binom.model.1) ``` 似然比类似于线性回归模型中的 F 检验,它能揭示模型是否显著,但无法说明拟合优度,而在线性回归中,调整后的 R 平方可用于描述拟合优度。逻辑回归模型虽无等效统计量,但已开发出几种伪 R 平方,其值通常在 0 到 1 之间,值越高表示拟合越好。可使用 `BaylorEdPsych` 包中的 `PseudoR2` 函数计算该值: ```R library(BaylorEdPsych) PseudoR2(binom.model.1) ``` 不过要注意,伪 R 平方不能像普通最小二乘(OLS)的 R 平方那样解释,且存在一些已知问题,但能提供大致情况。在此例中,模型的解释能力较低,考虑到在如犯罪判决这样复杂过程的建模中仅使用了两个预测变量,这并不意外。 #### 3. 模型比较 对于嵌套逻辑回归模型,可使用似然比检验(如 `lmtest` 库中的 `lrtest` 函数)比较残差偏差的差异。 ```R lrtest(binom.model.0, binom.model.1) ``` 对于非嵌套模型,可使用 AIC,在逻辑回归模型中,AIC 是标准输出的一部分,无需单独调用 AIC 函数。例如,`binom.model.1` 的 AIC 低于 `binom.model.0`,且差值大于 2,不可忽略。 #### 4. 计数数据模型 逻辑回归仅能处理二元响应。若有计数数据,如特定时间段或地理区域内的死亡或失败次数,可使用泊松或负二项回归。这类数据在处理聚合数据时尤为常见,聚合数据以不同类别中的事件数量形式呈现。 #### 5. 泊松回归 泊松回归模型是广义线性模型,以对数为连接函数,假设响应服从泊松分布。泊松分布只取整数值,适用于计数数据,如固定时间段内发生的事件,前提是事件较为罕见,如每天硬盘故障的数量。 以下以 2013 年硬盘数据集为例,该数据集可从 [https://docs.backblaze.com/public/hard-drive-data/2013_data.zip](https://docs.backblaze.com/public/hard-drive-data/2013_data.zip) 下载,经过处理和简化。原始数据库中的每条记录对应一个硬盘的每日快照,感兴趣的故障变量可为 0(硬盘正常)或 1(硬盘故障前的最后一天)。 可能影响故障出现的潜在预测因素包括: - `model`:硬盘制造商指定的型号编号 - `capacity_bytes`:硬盘容量(字节) - `age_month`:硬盘平均使用月数 - `temperature`:硬盘温度 - `PendingSector`:表示不稳定扇区是否出现的逻辑值(给定硬盘在给定日期等待重新映射) 将原始数据集按这些变量进行聚合,`freq` 变量表示给定类别中的记录数,加载最终清理和聚合后的数据集: ```R dfa <- readRDS('SMART_2013.RData') ``` 查看不同型号硬盘的故障数量: ```R (ct <- xtabs(~model+failure, data=dfa)) ``` 去除没有故障的硬盘型号: ```R dfa <- dfa[dfa$model %in% names(which(rowSums(ct) - ct[, 1] > 0)),] ``` 使用 `ggplot2` 包绘制按型号编号的对数刻度直方图,快速了解故障数量: ```R library(ggplot2) ggplot(rbind(dfa, data.frame(model='All', dfa[, -1] )), aes(failure)) + ylab("log(count)") + geom_histogram(binwidth = 1, drop=TRUE, origin = -0.5) + scale_y_log10() + scale_x_continuous(breaks=c(0:10)) + facet_wrap( ~ model, ncol = 3) + ggtitle("Histograms by manufacturer") + theme_bw() ``` 使用型号编号作为预测变量,拟合泊松回归模型,使用 `glm` 函数,设置 `family = 'poisson'`,默认情况下对预期对数计数建模,使用对数连接。考虑到数据库中每个观测对应不同数量的硬盘,使用 `offset` 函数处理不同组大小: ```R poiss.base <- glm(failure ~ model, offset(log(freq)), family = 'poisson', data = dfa) summary(poiss.base) ``` 解释系数,型号编号是离散预测变量,使用多个虚拟变量表示。默认输出中不显示参考类别,但可随时查询: ```R contrasts(dfa$model, sparse = TRUE) ``` 结果显示参考类别为 `HGST`,虚拟变量将每个型号与 `HGST` 硬盘进行比较。例如,`Hitachi` 的系数为 1.77,意味着 `Hitachi` 硬盘的预期对数计数比 `HGST` 硬盘大约大 1.77。也可计算指数来表示比率: ```R exp(1.7666) ``` 一般来说,X 增加一个单位,Y 乘以 `exp(b)`。 确定模型的显著性,将当前模型与无预测变量的零模型比较,识别残差偏差和零偏差的差异,期望差异足够大,相应的卡方检验显著: ```R lrtest(poiss.base) ``` 模型看似显著,但需确定模型假设是否可能不成立。泊松回归有独立性假设,即事件相互独立,在硬盘故障案例中该假设成立。另一个重要假设是响应服从泊松
corwn 最低0.47元/天 解锁专栏
赠100次下载
继续阅读 点击查看下一篇
profit 400次 会员资源下载次数
profit 300万+ 优质博客文章
profit 1000万+ 优质下载资源
profit 1000万+ 优质文库回答
复制全文

相关推荐

张_伟_杰

人工智能专家
人工智能和大数据领域有超过10年的工作经验,拥有深厚的技术功底,曾先后就职于多家知名科技公司。职业生涯中,曾担任人工智能工程师和数据科学家,负责开发和优化各种人工智能和大数据应用。在人工智能算法和技术,包括机器学习、深度学习、自然语言处理等领域有一定的研究
最低0.47元/天 解锁专栏
赠100次下载
百万级 高质量VIP文章无限畅学
千万级 优质资源任意下载
千万级 优质文库回答免费看

最新推荐

零信任架构的IoT应用:端到端安全认证技术详解

![零信任架构的IoT应用:端到端安全认证技术详解](https://img-blog.csdnimg.cn/20210321210025683.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQyMzI4MjI4,size_16,color_FFFFFF,t_70) # 摘要 随着物联网(IoT)设备的广泛应用,其安全问题逐渐成为研究的焦点。本文旨在探讨零信任架构下的IoT安全认证问题,首先概述零信任架构的基本概念及其对Io

【多源数据整合王】:DayDreamInGIS_Geometry在不同GIS格式中的转换技巧,轻松转换

![【多源数据整合王】:DayDreamInGIS_Geometry在不同GIS格式中的转换技巧,轻松转换](https://community.esri.com/t5/image/serverpage/image-id/26124i748BE03C6A81111E?v=v2) # 摘要 本论文详细介绍了DayDreamInGIS_Geometry这一GIS数据处理工具,阐述了其核心功能以及与GIS数据格式转换相关的理论基础。通过分析不同的GIS数据格式,并提供详尽的转换技巧和实践应用案例,本文旨在指导用户高效地进行数据格式转换,并解决转换过程中遇到的问题。文中还探讨了转换过程中的高级技巧、

FPGA高精度波形生成:DDS技术的顶尖实践指南

![FPGA高精度波形生成:DDS技术的顶尖实践指南](https://d3i71xaburhd42.cloudfront.net/22eb917a14c76085a5ffb29fbc263dd49109b6e2/2-Figure1-1.png) # 摘要 本文深入探讨了现场可编程门阵列(FPGA)与直接数字合成(DDS)技术的集成与应用。首先,本文介绍了DDS的技术基础和理论框架,包括其核心组件及优化策略。随后,详细阐述了FPGA中DDS的设计实践,包括硬件架构、参数编程与控制以及性能测试与验证。文章进一步分析了实现高精度波形生成的技术挑战,并讨论了高频率分辨率与高动态范围波形的生成方法。

【仿真模型数字化转换】:从模拟到数字的精准与效率提升

![【仿真模型数字化转换】:从模拟到数字的精准与效率提升](https://img-blog.csdnimg.cn/42826d38e43b44bc906b69e92fa19d1b.png) # 摘要 本文全面介绍了仿真模型数字化转换的关键概念、理论基础、技术框架及其在实践中的应用流程。通过对数字化转换过程中的基本理论、关键技术、工具和平台的深入探讨,文章进一步阐述了在工程和科学研究领域中仿真模型的应用案例。此外,文中还提出了数字化转换过程中的性能优化策略,包括性能评估方法和优化策略与方法,并讨论了数字化转换面临的挑战、未来发展趋势和对行业的长远意义。本文旨在为专业人士提供一份关于仿真模型数

虚拟助理引领智能服务:酒店行业的未来篇章

![虚拟助理引领智能服务:酒店行业的未来篇章](https://images.squarespace-cdn.com/content/v1/5936700d59cc68f898564990/1497444125228-M6OT9CELKKA9TKV7SU1H/image-asset.png) # 摘要 随着人工智能技术的发展,智能服务在酒店行业迅速崛起,其中虚拟助理技术在改善客户体验、优化运营效率等方面起到了关键作用。本文系统地阐述了虚拟助理的定义、功能、工作原理及其对酒店行业的影响。通过分析实践案例,探讨了虚拟助理在酒店行业的应用,包括智能客服、客房服务智能化和后勤管理自动化等方面。同时,

数字通信测试理论与实践:Agilent 8960综测仪的深度应用探索

# 摘要 本文介绍了数字通信的基础原理,详细阐述了Agilent 8960综测仪的功能及其在数字通信测试中的应用。通过探讨数字信号的测试理论与调制解调技术,以及综测仪的技术指标和应用案例,本文提供了数字通信测试环境搭建与配置的指导。此外,本文深入分析了GSM/EDGE、LTE以及5G信号测试的实践案例,并探讨了Agilent 8960综测仪在高级应用技巧、故障诊断、性能优化以及设备维护与升级方面的重要作用。通过这些讨论,本文旨在帮助读者深入理解数字通信测试的实际操作流程,并掌握综测仪的使用技巧,为通信测试人员提供实用的参考和指导。 # 关键字 数字通信;Agilent 8960综测仪;调制解

手机Modem协议在网络环境下的表现:分析与优化之道

![手机Modem协议开发快速上手.docx](https://img-blog.csdnimg.cn/0b64ecd8ef6b4f50a190aadb6e17f838.JPG?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBATlVBQeiInOWTpQ==,size_20,color_FFFFFF,t_70,g_se,x_16) # 摘要 Modem协议在网络通信中扮演着至关重要的角色,它不仅定义了数据传输的基础结构,还涉及到信号调制、通信流程及错误检测与纠正机制。本文首先介

【C#多线程在UI中的应用】:异步更新TreeView与ListView,提升响应速度的关键

# 摘要 随着现代软件界面变得日益复杂,C#多线程编程已成为开发高性能用户界面(UI)应用程序的关键技术。本文从基础理论到实际应用,系统性地介绍了C#中多线程的概念、同步机制、UI线程更新机制以及多线程在TreeView和ListView更新中的应用。通过深入分析线程同步的目的、机制和锁的使用,以及探讨UI线程与工作线程的区别和异步编程模式,本文旨在提供一个多线程UI更新的综合案例分析,包括架构设计和高级线程管理,以帮助开发者提升应用程序的响应速度和性能。 # 关键字 多线程;线程同步;UI更新;异步编程;TreeView;ListView 参考资源链接:[C#实现ListView与Tre

物联网技术:共享电动车连接与控制的未来趋势

![物联网技术:共享电动车连接与控制的未来趋势](https://read.nxtbook.com/ieee/potentials/january_february_2020/assets/4cf66356268e356a72e7e1d0d1ae0d88.jpg) # 摘要 本文综述了物联网技术在共享电动车领域的应用,探讨了核心的物联网连接技术、控制技术、安全机制、网络架构设计以及实践案例。文章首先介绍了物联网技术及其在共享电动车中的应用概况,接着深入分析了物联网通信协议的选择、安全机制、网络架构设计。第三章围绕共享电动车的控制技术,讨论了智能控制系统原理、远程控制技术以及自动调度与充电管理

【心电信号情绪识别案例研究】:提升准确性,解锁实际应用的秘密

![【心电信号情绪识别案例研究】:提升准确性,解锁实际应用的秘密](https://ecgwaves.com/wp-content/uploads/2017/06/exercise_ecg_st_depressions.jpg) # 摘要 心电信号情绪识别是一种将生物信号分析与情绪计算相结合的前沿技术,旨在通过分析心电信号来识别个体的情绪状态。本文首先介绍了心电信号情绪识别的理论基础,然后详细探讨了数据采集与预处理的技术和方法,包括心电信号的采集技术和预处理中的噪声去除、基线校正、R波检测等。接着,文章重点分析了心电信号的特征提取、情绪模型构建以及在时域和频域内的分析方法。第四章讨论了心电信