SaTScan User指南(中文版)

SaTScan User指南(中文版)

在这里插入图片描述

参考:https://www.satscan.org/
中文版全文见:https://download.csdn.net/download/weixin_44026026/90409077

1.目的

SaTScan是一个免费的软件, 分析空间, 时间和时空数据使用空间, 时间, 或时空扫描统计。 它被设计用于以下任何相互关联的目的:
•对疾病进行地理监测, 以发现空间或时空疾病群集, 并查看它们是否具有统计学意义。
•测试疾病是在空间上随机分布, 还是在时间上随机分布, 还是在空间和时间上随机分布。
•评估疾病聚类警报的统计显著性。
•执行前瞻性实时或时间周期疾病监测, 以便及早发现疾病暴发。
该软件也可用于其他领域的类似问题, 如考古学、天文学、植物学、犯罪学、生态学、经 济学、工程学、林业、遗传学、地理学、地质学、历史学、神经学或动物学。

2.数据类型和方法

SaTScan可以用于离散以及连续扫描统计。对于离散扫描统计, 观察到数据的地理位置是非 随机的, 并且由用户固定。这些位置可能是观测的实际位置, 如房屋、 学校或蚁巢, 也可 能是代表更大区域的中心位置, 如邮政区、 县或省的地理或人口加权质心。对于连续扫描 统计, 观测值的位置是随机的, 可以发生在用户定义的预定义研究区域内的任何地方, 例 如矩形。

对于离散扫描统计, SaTScan使用基于泊松的离散模型, 其中地理位置上的事件数量是泊松 分布的, 根据已知的潜在风险人群;伯努利模型, 使用0/1的事件数据, 如病例和对照; 时 空排列模型, 只使用案例数据;分类数据的多项模型;序数模型, 用于有序的分类数据; 有或没有删节变量的生存时间数据的指数模型; 其他类型连续数据的正态模型;或时间趋 势的空间变化模型, 寻找时间趋势异常高或低的地理区域。所有这些离散扫描统计的一个 共同特征是, 可以观察到数据的地理位置是非随机的, 并且是由用户固定的。

对于离散扫描统计, 数据要么可以在人口普查区、 邮政编码、 县或其他地理级别上进行汇 总, 要么可以为每个观测点提供唯一的坐标。 SaTScan根据背景人口的潜在空间不均匀性进 行调整。 它还可以调整用户提供的任意数量的分类协变量, 以及时间趋势、 已知的时空集 群和缺失的数据。可以同时扫描多个数据集, 以寻找在其中一个或多个数据集中出现的簇。

对于连续扫描统计, SaTScan使用连续泊松模型。

3. 统计方法

对于所有离散的空间和时空分析, 用户通常会提供包含一组位置的空间坐标的数据(坐标 文件)。作为一种替代方法, 可以在网络上定义一组位置, 指定该网络上邻居之间的距离。 对于每个位置, 数据必须进一步包含有关该位置的案例数量的信息(案例文件)。对于时 间和时空分析, 病例数必须按时间分层, 例如诊断时间。根据分析的类型, 还可能提供有 关病例的其他信息, 如年龄、性别、体重、生存时间和/或癌症分期。对于伯努利模型, 还 需要指定每个位置(控制文件) 的控件数量。对于离散泊松模型, 用户必须为每个位置指 定种群大小(种群文件)。人口可能会随着时间的推移而变化。

扫描统计用于在纯时间、纯空间或时空设置中检测和评估病例群。这是通过在时间和/或空 间上逐渐扫描一个窗口来完成的, 注意到每个位置窗口内观察到的和预期观察到的数量。

在SaTScan软件中, 扫描窗口是间隔(在时间上)、 圆形或椭圆形(在空间上)或以圆形或 椭圆形为底的圆柱体(在时空上)。也可以在特殊文件中指定自己的非欧几里得距离结构, 或者在用户定义的网络上查找邻近位置的簇。使用了多个不同的窗口大小。似然值最大的 窗口是最可能的聚类, 也就是最不可能由于偶然性而出现的聚类。给这个聚类分配一个p值。

扫描统计根据数据的性质使用不同的概率模型。伯努利、 离散泊松或时空排列模型用于计 数数据, 如哮喘患者的数量; 多项模型用于分类数据, 如癌症组织学; 有序分类数据(如 癌症分期) 的序数模型; 有或没有删节的生存时间数据的指数模型; 以及其他连续数据 (如出生体重或血铅水平) 的正常模型。 SaTScan软件中使用的空间和时空扫描统计数据背 后的一般统计理论由Kulldorff(1997)1 详细描述伯努利 , 离散泊松和连续泊松模型;
Kulldorff等人(2005)5 的时空排列模型;Jung等人(2008)6 的多项模型;Jung等人(2007) 7 的序数模型;Huang等人(2006)8用于指数模型, Kulldorff等人(2009)9用于正态模型, Huang等人(2009)10用于带权重的正态模型。请阅读这些论文, 了解每个模型的详细描述。 这里我们只给出一个简短的非数学描述。

对于所有离散概率模型, 扫描统计量根据背景人口的不均匀地理密度进行调整。对于所有 模型, 分析都以观察到的病例总数为条件。

空间, 时间和时空扫描统计

空间扫描统计

标准的纯空间扫描统计量在地图上施加了一个圆形窗口。 窗口依次以位于整个研究区域的 几个可能的网格点为中心。对于每个网格点, 窗口的半径在大小上连续变化, 从零到用户 指定的某个上限。这样, 圆形窗口在位置和大小上都是灵活的。 总的来说, 该方法创建了 无数个不同的地理圆圈, 其中有不同的相邻数据位置集。每个圆都是一个可能的候选聚类。

用户通过网格文件定义使用的网格点集合。 如果没有指定网格文件, 则网格点被设置为与坐 标文件中定义的位置id的坐标相同。后一个选项确保每个数据位置本身就是一个潜在的集群, 对于大多数类型的分析来说, 这是推荐的选项。
作为圆的替代方案, 也可以使用椭圆窗口形状, 在这种情况下, 一组具有不同形状和角度的 椭圆与圆一起用作扫描窗口。 这为形状狭长的真簇提供了略高的功率, 为圆形和其他非常紧 凑的簇提供了略低的功率。
有时, 沿着路网(如道路网或配水网) 寻找集群是有意义的。 这可以通过指定一个网络文件 来完成, 网络中每对相邻位置都有一个条目, 以及这些位置之间的距离。
对于特殊的邻居文件, 也可以使用非欧几里得距离度量。 使用这样的文件, 为每个位置指定 最近邻居及其顺序的列表。

相关主题:分析选项卡,坐标文件,椭圆扫描窗口,网格文件,最大空间簇大小,空间窗口选项卡。

时空扫描统计

时空扫描统计量由一个圆柱形窗口定义, 该窗口具有圆形(或椭圆或基于网络的)地理基础, 其高度与时间相对应。 该基数的定义与纯空间扫描统计量完全相同, 而高度则反映了潜在集 群的时间段。 然后, 圆柱形窗口在空间和时间上移动, 这样, 对于每个可能的地理位置和大 小, 它也会访问每个可能的时间段。 实际上, 我们获得了无数个不同大小和形状的重叠圆柱 体, 共同覆盖了整个研究区域, 其中每个圆柱体反映了一个可能的集群。
时空扫描统计量既可以用于单个回顾性分析(使用历史数据) , 也可以用于时间周期前瞻性 监测(例如每天、每周、每月或每年重复分析)。
相关主题:分析选项卡,空间窗口选项卡,时间窗口选项卡。 纯时间扫描统计
时间扫描统计量使用一个在一维(时间) 中移动的窗口, 其定义方式与时空扫描统计量使用 的圆柱体高度相同。 这意味着它在开始日期和结束日期上都是灵活的。 最大时间长度在时间 窗口选项卡上指定。
相关主题:分析选项卡,时间窗口选项卡。时空扫描统计,季节扫描统计。 季节扫描统计
季节性扫描统计数据是一个纯时间扫描统计数据, 其中所有数据都在一个连接环路上, 例如 年份, 其中12月31日之后是1月1 日。 季节扫描统计数据与纯粹时间扫描统计数据的关键区别 在于, 它忽略了观测是哪一年进行的, 只关心日期和月份。 检测到的聚类可能会覆盖环路连 接的地方, 比如12月24日到1月13日的聚类, 在2010-2011年的分析中, 它将包括三个时间段: 2010年初, 2010/11年新年前后的日子, 以及2011年底。 季节性扫描统计也可以用于在环路中 连接的线上的其他类型的数据, 完全与时间无关, 例如沿着湖岸收集的数据。

可以在“ 时间窗口”选项卡上指定最小和最大时间长度。 相关主题:分析选项卡,时间窗口选项卡。纯时间扫描统计。

时间趋势扫描统计的空间变异

当使用扫描统计量来评估时间趋势的空间变化时, 扫描窗口本质上是纯粹的空间。 然后, 对 扫描窗口的每个位置和大小, 在扫描窗口内部和外部计算时间趋势。零假设是趋势是相同的, 而替代假设是它们是不同的。 在这些假设的基础上, 计算出一个似然值, 该似然值越高, 趋 势的差异越不可能是偶然造成的。 最可能的集群是窗口内的时间趋势与集群外的时间趋势最 不可能相同的集群。 这可能是由各种原因造成的。 例如, 如果集群内部的时间趋势较高, 则 可能是因为所有区域在时间段开始时具有相同的疾病发病率, 但集群区域在时间段结束时具 有更高的发病率。 也可能是因为集群区域在时间段开始时的发病率较低, 之后它会“赶上 ” 其他区域, 因此在时间段结束时的发病率大致相同。 因此, 在时间趋势分析的空间变异中, 统计上显著的聚类并不一定意味着该聚类的总体发病率更高或更低。
时间趋势扫描统计量的空间变化只能用离散泊松概率模型来运行。 要使其起作用, 重要的是 总研究周期长度可以被时间间隔聚合的长度平均整除, 以便所有时间间隔具有相同的年数, 如果以年为单位指定, 则具有相同的月数, 如果以月为单位指定, 则具有相同的天数, 如果 以天为单位指定。
相关主题:分析选项卡,时空扫描统计。

伯努利模型

对于伯努利模型1,2 , 有由0/1变量表示的情况和非情况。 这些变量可能代表患有或没有疾病的 人, 也可能代表患有不同类型疾病的人, 如早期和晚期乳腺癌。 它们可能反映来自较大人群 的病例和对照, 或者它们可能共同构成整个人群。 无论情况如何, 这些变量将在整个用户指 南中被表示为病例和对照, 它们的总数将被表示为总体。 伯努利数据可以用纯时间、 纯空间 或时空扫描统计量进行分析。
示例:对于伯努利模型, 病例可能是具有某种出生缺陷的新生儿, 而对照组是所有没有该出生 缺陷的新生儿。
伯努利模型需要关于一组案例和控制的位置信息, 这些信息使用案例、 控制和坐标文件提供 给SaTScan。可以为每个病例和每个控制指定单独的位置, 也可以为州、 省、 县、教区、 人口 普查区、 邮政编码区域、 学区、 家庭等汇总数据, 在每个数据位置都有多个病例和控制。 要 做时间或时空分析, 就必须为每个病例和每个控制都有一个时间。
相关主题:分析标签、案例档案、控制档案、坐标档案、似然比检验、方法学论文、概率模型比较。

离散泊松模型

对于离散泊松模型1, 每个位置的病例数是泊松分布的。在零假设下, 当没有协变量时, 每 个区域的预期病例数与该区域的人口规模或该区域的人年成正比。泊松数据可以用纯时间、 纯空间、 时空和空间变化的时间趋势扫描统计来分析。
示例:对于离散泊松模型, 病例可能是中风的发生, 而人口是生活的人年的总和, 计算为1, 表示整个时间段内居住在该地区的人, 计算为1 / 2, 表示在时间段中期死亡或搬走的人。
离散泊松模型需要一组数据位置(如县、教区、人口普查区或邮政编码区域) 的病例和人 口计数, 以及每个这些位置的地理坐标。 这些需要使用案件、 人口和坐标文件提供给 SaTScan。
人口数据不需要随时间连续指定, 只需要在一个或多个特定的“普查时间”指定。对于两 者之间的时间, SaTScan根据人口普查之前和之后的人口进行线性插值。对于第一次人口普 查时间之前的次数, 人口规模被设置为等于第一次人口普查时间的人口规模, 对于最后一 次人口普查时间之后的次数, 人口规模被设置为等于最后一次人口普查时间的人口规模。 为了得到给定地点和时间段的人口规模, 如上所定义的人口规模在所讨论的时间段内进行 整合。
相关主题:分析标签,案例档案,连续泊松模型,坐标档案,似然比检验,方法学论文,总体档 案,概率模型比较。

时空排列模型

时空排列模型5只需要病例数据, 其中包含每个病例的空间位置和时间信息, 而不需要关于 控制组或处于危险中的背景人群的信息。将一个集群中观察到的病例数与所有病例的时空 位置相互独立, 从而不存在时空相互作用的情况下的预期病例数进行比较。也就是说, 如 果在特定时间段内, 该区域在该时间段内的病例比例高于其他地理区域, 则该地理区域中 存在一个集群。这意味着, 如果在特定的一周内, 所有地理区域的病例数都是正常情况下 的两倍, 那么这些区域都不构成集群。 另一方面, 如果在这一周内, 一个地理区域的病例 数是正常情况下的两倍, 而其他区域的病例数正常, 那么在第一个区域就会出现聚集。 时 空排列模型会自动针对纯空间和纯时间集群进行调整。 因此, 不存在这个模型的纯时间或 纯空间版本。
例子:在时空排列模型中, 病例可能是每天都有救护车被派往中风患者。
重要的是要认识到, 时空排列集群可能是由于疾病风险增加, 或者是由于不同时间的不同 地理人口分布, 例如某些地区的人口增长速度快于其他地区。如果总研究周期少于一年,
这通常不是问题。但是, 对于跨越数年的数据, 建议用户在使用这种方法时要非常小心。 如果某些地区的背景人口增长或减少速度快于其他地区, 则存在人口转移偏倚的风险, 当 研究周期超过几年时, 可能会产生偏倚的p值。例如, 如果开发了一个新的大型社区, 那里 的病例将仅仅因为人口增加而增加, 并且仅使用病例数据, 时空排列模型无法区分由于当 地人口增加而增加的病例与疾病风险增加的病例。 与所有时空相互作用方法一样, 这主要 是在研究周期大于几个时需要考虑的问题

多项式模型

使用多项模型6 , 每个观察都是一个案例, 每个案例属于几个类别中的一个。 多项扫 描统计量评估是否存在病例分布与研究区域其他部分不同的聚类。例如, 1型和2型病 例的比例可能较高, 3型病例的比例可能较低, 而4型病例的比例与集群外大致相同。 如果只有两个类别, 则序数模型与伯努利模型相同, 其中一个类别代表病例, 另一个 类别代表对照。多项模型中的案例可能是来自较大总体的样本, 也可能构成一组完整 的观测值。多项数据可以用纯粹的时间、纯粹的空间或时空扫描统计来分析。
示例:对于多项模型, 数据可能由诊断为脑膜炎的每个人组成, 五个不同的类别代表 该疾病的五种不同克隆复合物6。 多项扫描统计量将同时寻找任何克隆复合体或一组克 隆复合体的高簇或低簇, 并根据疾病的整体地理分布进行调整。在计算p值时, 考虑 了所使用的许多类别中固有的多重比较。
多项模型需要每个类别中每个案例的位置信息。可以为每个病例指定一个唯一的位置, 也可以将数据汇总为州、省、县、教区、人口普查区、 邮政编码区域、学区、家庭等, 在同一位置有多个病例。要进行时间或时空分析, 还需要为每个病例指定一个时间。 对于多项模型, 不需要指定搜索高或低的聚类, 因为类别之间没有层次关系, 但在输 出中, 它显示了哪些类别在聚类中更突出。类别的顺序或索引不会影响所发现的聚类 的分析, 但它可能会影响用于计算p值的随机化。
相关主题:分析选项卡,案例文件,坐标文件,似然比检验,方法学论文,概率模型比较。

顺序模型

对于序数模型7 , 每个观测值都是一个案例, 每个案例属于几个序数类别中的一个。
如果只有两个类别, 则序数模型与伯努利模型相同, 其中一个类别代表伯努利模型中 的情况, 另一个类别代表控制。序数模型中的案例可能是来自较大总体的样本, 也可 能构成一组完整的观测值。序数数据可以用纯时间、纯空间或时空扫描统计量来分析。
示例:对于序数模型, 数据可能由十年期间诊断为乳腺癌的每个人组成, 其中三个不 同的类别代表诊断时的早期, 中期和晚期癌症。
序数模型需要每个类别中每个病例的位置信息。可以为每个病例指定单独的位置, 也 可以将数据汇总为州、省、县、教区、人口普查区、 邮政编码区域、学区、家庭等多 个相同或不同的病例

每个数据位置的类别。要做时间或时空分析, 还需要为每个案例设定一个时间。
使用序数模型, 可以搜索高值类别中有过量案例的高聚类, 搜索低值类别中有 过量案例的低聚类, 或者同时搜索两种类型的聚类。颠倒类别的顺序与将分析 从高改为低具有相同的效果, 反之亦然。
相关主题:分析选项卡、案例档案、坐标档案、似然比检验、方法学论文、概率模 型比较。

指数模型

指数模型8是为生存时间数据设计的, 尽管它也可以用于其他连续类型的数据。每个观测值 都是一个案例, 每个案例都有一个连续变量属性以及一个0/1的审查指定。对于生存数据,
连续变量是诊断和死亡之间的时间, 或者根据应用, 是其他两种类型事件之间的时间。如 果由于失去随访而对部分数据进行审查, 则连续变量则改为诊断和审查时间之间的时间。0/ 1审查变量用于区分审查和非审查的观测值。
示例:对于指数模型, 数据可能包括在十年期间被诊断患有前列腺癌的每个人, 其信息要么 是从诊断到死亡的时间长度, 要么是从诊断到审查时间的长度, 之后的生存未知。
当使用时间或时空指数模型来计算生存时间时, 重要的是要意识到有两个非常不同的时间 变量。第一个是病例被诊断的时间, 这是时间和时空扫描窗口扫描过的时间。第二个是生 存时间, 也就是从诊断到死亡之间的时间, 或者对于被删减的数据来说, 就是从诊断到删 减之间的时间。这是每个病例的一个属性, 没有对这个变量进行扫描。相反, 我们感兴趣 的是扫描窗口是否包含异常多的情况, 该属性的值或小或大。
值得注意的是, 虽然指数模型使用基于指数分布的似然函数, 但真实的生存时间分布一定 不是指数分布, 并且统计推断(pvalue)对其他生存时间分布也有效。 这样做的原因是, 随机化不是通过从指数分布生成观测值来完成的, 而是通过排列观测值的时空位置和生存 时间/审查属性来完成的。
相关主题:似然比检验、分析选项卡、概率模型比较、方法学论文。

正常模式

正态模型10是为连续数据设计的。对于每个个体或每个观察, 称为一个案例, 有一个单一的 连续属性, 可以是负的, 也可以是正的。 当有许多类别时, 该模型也可以用于有序数据。 也就是说, 允许不同的情况具有相同的属性值。
示例:对于正常模型, 数据可能由所有新生儿的出生体重和居住人口普查区组成, 有兴趣找 到出生体重较低的聚类。这样, 一个个体就是一个“案例”。或者, 数据可能包括每个人 口普查区的平均出生体重。然后, 人口普查区就是“情况” , 使用加权正态模型很重要,
因为每个普查区的出生人数不同, 每个平均值将有不同的方差。
值得注意的是, 虽然正态模型使用基于正态分布的似然函数, 但连续属性的真实分布一定 不是正态的。统计推断(p值)对任何连续分布都是有效的。其原因是, 随机化不是通过从 正态分布中生成模拟数据来完成的, 而是通过排列观测值的时空位置和连续属性(例如出 生体重)来完成的。 虽然在形式上仍然有效, 但结果可能会受到极端异常值的极大影响,
因此在进行分析之前截断此类观察值可能是明智的。

在标准正态模型9 中, 假设每个观测值都具有相同的方差。情况可能并非总是如此。例如, 如果一个观察是基于一个位置的较大样本和另一个位置的较小样本, 那么对于较小的样本, 估计中的不确定性的方差将更大。 如果估计的可靠性不同, 则应该使用加权正态扫描
statistic10that, 将这些不相等的方差考虑在内。在SaTScan中, 通过简单地将每个观测值的权 重指定为输入文件中的额外列来获得加权版本。例如, 该权重可能与用于每次估计的样本量 成正比, 也可能是观测值方差的倒数。
如果所有值都与相同的常数相乘或相加, 则统计推断将不会改变, 这意味着将找到具有相同 对数似然和p值的相同集群。只有估计的均值和方差会有所不同。如果所有观测值的权重相 同, 则加权正态扫描统计量将产生与标准正态版本相同的结果。如果所有的权重乘以相同的 常数, 则结果不会改变。
相关主题:分析选项卡、似然比检验、方法学论文、概率模型比较。

连续泊松模型

上面描述的所有模型都是基于在离散位置观察到的数据, 这些数据被认为是非随机的, 由位 置点的规则或不规则晶格定义。也就是说, 观测点的位置被认为是固定的, 我们评估观测条 件作用在点阵上的空间随机性。 因此, 这些都是所谓的离散扫描统计174 的所有版本。在连续 扫描统计中, 观测值可能位于研究区域内的任何位置, 例如正方形或矩形。数据的随机方面 由这些随机的空间位置组成, 我们感兴趣的是, 如果观察结果独立且随机地分布在整个研究 区域, 是否存在不太可能发生的聚类。在零假设下, 整个研究区域的观测值遵循均匀的空间 泊松过程, 强度恒定, 没有观测值落在研究区域之外。
示例:数据可能包括森林中一平方公里区域内鸟巢的位置。我们感兴趣的可能是看看鸟巢在 空间上是否随机分布, 或者换句话说, 是否有鸟巢的集群, 或者它们是否彼此独立地定位。
在SaTScan中, 研究区域可以是任何凸多边形的集合, 凸多边形是由任意数量的直线包围的 凸区域。三角形、正方形、矩形、菱形、五边形和六边形都是凸多边形的例子。在最简单的 情况下, 只有一个多边形, 但研究区域也可以是多个凸多边形的并集。如果研究区域不是凸 的, 则将其划分为多个凸多边形, 并分别定义每个凸多边形。研究区域不需要是连续的, 例

如可以由五个不同的岛屿组成。
分析以数据集中的观测总数为条件。 观测值的数量。

因此, 扫描统计量只是评估观测值的空间分布, 而不是

作为检验统计量的似然函数与离散扫描统计量的泊松模型相同, 其中期望病例数等于观察到 的观测总数乘以扫描窗口的大小, 除以总研究区域的大小。 因此, 它是Kulldorff(1997)所 描述的可变窗口大小扫描统计量的一种特殊情况。 当扫描窗口延伸到研究区域之外时, 期望 计数仍然基于圆的完整尺寸, 忽略了圆的某些部分具有零期望计数的事实。这是为了避免在 研究区边界出现奇怪的非圆形簇。 由于分析是基于蒙特卡罗随机化, 因此p值会自动针对这 些边界效应进行调整。报告的预期计数是基于完整的圆

但是, 当圆延伸到空间研究区域之外时, 所提供的Obs/Exp比率应被视为真实值的下限。
连续泊松模型只能用于纯空间数据。 它使用半径连续变化的圆形扫描窗口, 最大可达用户 指定的最大值。只考虑以其中一个观测点为中心的圆, 如坐标文件中指定的。如果提供了 可选的网格文件, 则圆圈将以该文件中指定的坐标为中心。连续泊松模型并没有被实现为 与椭圆窗口一起使用。
相关主题:分析标签,似然比检验,方法学论文,泊松模型,概率模型比较。

概率模型比较

在SaTScan中, 离散扫描统计有七种不同的概率模型。 对于计数数据, 有三种不同的概率 模型: 离散泊松、伯努利和时空排列。序数和多项模型是为具有或不具有固有顺序的分类 数据设计的, 例如从低到高。连续数据有两种模型: 正态模型和指数模型。后者主要是为 生存型数据设计的。对于连续扫描统计量, 只有齐次泊松模型。
离散泊松模型通常是运行最快的。序数模型通常是最慢的。
使用离散泊松和时空排列模型, 可以通过在案例和总体文件中包含无限数量的协变量来调 整它们。对于正常模型, 也可以通过将协变量包含在案例文件中来调整协变量, 但仅适用 于纯粹的空间分析。对于伯努利、序数、指数和正态模型, 协变量可以通过使用多个数据 集来调整, 这限制了可以定义的协变量类别的数量, 或者通过在运行SaTScan之前进行预 处理回归分析。
所有离散概率模型既可以用于单个位置, 也可以用于聚合数据。
使用离散泊松模型, 只需要在选定的时间点上的人口数据, 并且在两者之间插入数字。 即 使是纯空间分析, 也必须指定种群时间。无论使用何种模型, 只有在进行纯粹的时间和时 空分析时才需要指定病例或对照的时间。
时空排列模型会自动调整纯空间和纯时间集群。对于离散泊松模型, 纯时间和纯空间集群 可以通过许多不同的方式进行调整。对于伯努利、序数、指数和正态模型, 可以使用多个 数据集进行空间和时间调整, 但它受到允许的不同数据集数量的限制, 并且它也更加计算 机密集。
纯粹的时间和时空分析不能使用齐次泊松模型进行。 时间趋势分析中的空间变化只能使用 离散泊松模型进行。

与对照相比病例较少

在纯粹的空间分析中, 与对照相比, 很少有病例, 比如不到10%, 离散泊松模型是伯努利 模型的非常好的近似值。前者也可以用于0/1伯努利类型的数据, 并且可能更可取, 因为它 对各种类型的调整有更多的选择, 包括调整案例和总体文件中指定的协变量的能力。作为 伯努利型数据的近似, 离散泊松模型产生略保守的p值。

伯努利与序数模型

伯努利模型在数学上是序数模型的一个特例, 只有两类。伯努利模型运行速度更快, 使 其成为只有两个类别时使用的首选模型。
正态模型与指数模型
正态模型和指数模型都适用于连续数据。指数模型主要是为生存时间数据设计的, 但可 以用于所有观测值都为正的任何数据。它特别适用于右尾较重的数据。正态模型可以用 于同时取正值和负值的连续数据。 虽然形式上仍然有效, 但正态模型的结果对极端异常 值很敏感。

正态与序数模型

当类别非常多时, 可以使用正常模型来处理类别数据。 因此, 它有时是序数模型计算速 度更快的替代方案。但是有一个重要的区别。对于序数模型, 只有观测值的顺序起作用。 例如, 对于有序值“ 1 -2 -3 -4”和“ 1 -10 -100 -1000” , 结果是相同的。使用正常模型, 结果将是不同的, 因为它们取决于用于定义类别的值之间的相对距离。

离散与齐次泊松模型

而不是使用齐次泊松模型, 可以用离散泊松模型将研究区域划分成许多小块来逼近数据。 对于每个小块, 指定一个坐标点, 用小块的大小来定义该位置的总体, 该小块区域内的 观测数就是该位置的病例数。 当碎片的数量增加到无穷大时, 因此, 当它们的大小减小 到零时, 离散泊松模型将渐近等效于齐次泊松模型。

时态数据

对于时间和时空数据, 概率模型之间还有一个额外的区别, 那就是处理时间数据的方式。 使用泊松模型, 人口数据可以指定在一个或几个时间点, 如普查年。然后假设人口也存 在于这些时间点之间, 通过人口普查年份之间的线性插值进行估计。对于伯努利模型、 时空排列模型、序数模型、指数模型和正态模型, 需要为每种情况和伯努利模型以及每 种控制指定时间。
相关主题:伯努利模型、泊松模型、时空排列模型、似然比检验、方法学论文。

似然比检验

对于扫描窗口的每个位置和大小, 另一种假设是, 窗口内的风险高于窗口外。在泊松假设 下, 特定窗口的似然函数是成比例的to1 :

其中C为总病例数, C为窗口内观察到的病例数, E[C]为零假设下窗口内协变量调整后的 期望病例数。请注意, 由于分析以观察到的病例总数为条件, 因此c - e [c]是窗口外的期望 病例数。I() 是一个指标函数。 当SaTScan设置为只扫描具有高速率的集群时, 当窗口的 情况比零假设下的预期情况多时, I() 等于1, 否则等于0。 当将SaTScan设置为仅扫描低 速率的集群时, 情况正好相反。 当程序扫描具有高速率或低速率的集群时, 则I()=1适用于 所有窗口。
时空排列模型使用与泊松模型相同的函数。 由于边界条件的限制, 观测到的病例数仅近似 为泊松分布。 因此, 它不再是正式的似然比检验, 但它的作用与检验统计量相同。
对于伯努利模型, 似然函数is1,2 :

其中c和c的定义如上所述, n是窗口内病例和对照的总数, 而n是数据集中病例和对照的组 合总数。
由于数据更复杂的性质, 多项式、序数、指数和正态模型的似然函数更复杂。我们参考了 Jung、Kulldorff和 Richards 的 论 文 6 , Jung、Kulldorff和 Klassen7 ;Huang 的 论 文 , Kulldorff和 Gregorio8 ;Kulldorff等人的论文9 , 以及Huang等人的论文10来获取这些模型的似然函数。 时 间趋势扫描统计量的空间变化的似然函数也更为复杂, 因为它涉及到几个不同趋势函数的 最大似然估计。
在所有窗口位置和大小上, 似然函数都是最大化的, 具有最大似然的函数构成了最可能的
聚类。这是最不可能偶然发生的集群。这个窗口的似然比构成最大似然比检验统计量。 它
在零假设下的分布是通过对在零假设下生成的数据集的大量随机重复重复相同的分析练习
得到的。p值通过蒙特卡罗假设检验14, 通过比较真实数据集的最大似然与随机数据集的最
大似然的秩来获得。如果这个秩为R, 则p= R / (1+ #simulation)。为了让p成为一个“好看” 的数字, 模拟次数被限制在999或其他以999结尾的数字, 如1999、9999或99999。这样,
对于典型的截止值(如0.05、0.01和0.001) , 是否拒绝零假设总是很清楚的。
SaTScan程序扫描高速率区域(集群) , 低速率区域, 或同时扫描高速率或低速率区域。
为了做出正确的统计推断, 应该使用后者, 而不是分别对高率和低率运行两个单独的测试。 最常见的分析是扫描高速率的区域, 也就是对于聚类。

Non-Compactness Penalty Function

当使用椭圆窗口形状时, 可以选择使用非紧致性(偏心)惩罚来支持更紧致的簇12。这样做 的主要原因是, 在零假设下, 椭圆扫描统计量通常会生成一个最可能的椭圆簇, 因为评估 的椭圆簇比圆形簇多, 而且它通常是一个又长又窄的椭圆, 因为有更多的椭圆。 同时, 聚 类的概念是基于紧致性标准的, 在这个意义上, 聚类中的情况应该彼此接近, 所以我们对 紧致聚类更感兴趣。 当使用非紧凑性惩罚时, 不再使用纯似然比作为检验统计量。相反, 检验统计量被定义为对数似然比乘以形式为[4s/(s+1)2]a的非紧性惩罚, 其中s是定义为椭 圆最长轴与最短轴长度之比的椭圆窗口形状。对于圆, s=1。参数a是惩罚调优参数。当a=0 时, 与s无关的惩罚函数总是1, 因此永远不会有惩罚。 当a趋于无穷时, 对于所有s>1, 惩 罚函数趋于0, 因此只考虑圆形簇。 除此之外, 惩罚调优参数a没有明确的直观含义。在 SaTScan中, 可以使用强惩罚(a=1)或中等大小惩罚(a=1/2)。
相关主题:批处理模式、伯努利模型、协变量调整、椭圆扫描窗口、指数模型、蒙特卡罗复制、 序数模型、泊松模型、次级簇、时空排列模型、标准结果文件。

二次集群

对于纯粹的空间和时空分析, SaTScan还在数据集中识别除了最可能的集群之外的次要集 群, 并根据它们的似然比检验统计量对它们进行排序。几乎总是会有一个与最可能的集群 几乎相同的次要集群, 并且具有几乎相同的高似然值, 因为只是边际地扩大或减少集群大 小不会对似然有很大的改变。这种类型的大多数集群几乎没有提供额外的信息, 但它们的 存在意味着, 虽然有可能精确定位集群的一般位置, 但其确切的边界必须保持不确定。用 户可以决定在结果文件中报告重叠聚类的程度。默认情况是不报告地理上重叠的聚类。
也可能存在与最可能的集群在空间上没有重叠的次要集群, 它们可能会引起极大的兴趣。 这些总是被报道出来的。 这种聚类的p值应该根据次级聚类凭自身力量拒绝原假设的能力 来解释, 无论更可能的聚类是否是真聚类。 因此, 这些p值不会因为数据中可能存在其他
聚类而进行调整。如果需要这样的调整, 则应使用迭代扫描统计量。 对于纯粹的时间分析, 只报告最可能的聚类。
相关主题:调整更可能的集群,似然比测试,空间输出选项卡,报告次要集群的标准,标准结 果文件。

调整更可能的集群

当数据集中有多个集群时, 次要集群被评估为数据集中没有其他集群。也就是说, 当且仅 当它们能够以自身的力量引起对原假设的拒绝时, 无论其他聚类是否为真聚类, 它们都具 有统计显著性。这通常是想要的推断类型。有时, 在对数据中的其他聚类进行调整后评估 次要聚类也很有趣。

作为一个高级选项, SaTScan能够为数据中更可能的集群调整辅助集群的推断24。这是以迭代的 方式完成的。在第一次迭代中, SaTScan运行标准分析, 但只报告最可能的集群。然后从数据 集中删除该集群, 包括集群中的所有病例和对照(伯努利模型) , 而对于定义集群的位置和 时间段, 将总体(泊松模型)设置为零。在第二次迭代中, 使用剩余的数据进行全新的分析。 然后重复此过程, 直到p值小于用户指定的最大值的聚类不再存在, 或者直到用户指定的最大 迭代次数已经完成, 以先到者为准。
对于纯粹的空间分析, 已经证明二级聚类的所得p值相当准确, 最多是轻微偏差。
请注意, 次级星团的圆可能与先前检测到的更有可能的星团的圆重叠, 甚至可能完全包围它, 使后者成为前者的子集。 这并不意味着更可能的星团会被检测两次。 相反, 更可能的集群被 视为一个没有人口和病例的“湖泊 ”, 新的二级集群由该“湖泊 ”周围的区域组成。 例如, 如果一个城市有很高的风险, 而周围的郊区有适度的风险升高, 就可能发生这种情况。 在进 行纯粹的时间或时空分析时, 也可能发生同样的现象。
此特征不适用于连续泊松模型。
相关主题:空间输出选项卡,报告次级聚类的标准,迭代扫描,似然比测试,次级聚类,标准结果文 件。

钻取

当检测到一个集群时, 有时会有兴趣确定集群内是否存在集群, 或者在检测到的集群内案例 是否随机分布。 这可以使用钻取机制来完成。 对于检测到的纯空间集群, 将集群外的所有数 据删除, 然后对集群内的数据进行扫描统计分析。 这是使用与原始分析相同的概率模型来完 成的。 为了确定应该对哪些检测到的簇进行钻取, 有必要指定一个最大p值、 最小位置数和最 小案例数。默认情况下, 对至少有两个位置和十个案例且p<0.05的集群进行钻取。
对于时空分析, 钻取可以使用相同类型的时空分析和/或SaTScan可以使用伯努利模型进行纯粹 的空间分析。 对于后者, 案例被定义为圆柱形集群内的那些案例, 而控制被定义为地理集群 区域内但在时间集群间隔之外的那些案例。
相关主题:调整更可能的集群,迭代扫描,次要集群
协变量调整
当以下三种情况都为真时, 应调整协变量:
•协变量与相关疾病有关。
•协变量不是随机分布的。
•你想要找到无法用该协变量解释的群集。 这里有三个例子:
•如果你正在研究美国的癌症死亡率, 你应该根据年龄进行调整, 因为(i)老年人更容 易死于癌症(ii)一些地区, 如佛罗里达州, 癌症死亡率更高

老年人的百分比, 第三, 你可能有兴趣找到癌症风险高的地区而不是老年人口 的地区。
•如果你对出生缺陷的地理分布感兴趣, 你不需要根据性别进行调整。 虽然出生缺 陷在男孩和女孩身上的可能性并不相等, 但在出生时, 两种性别的地理分布在地 理上是随机的。
•如果你正在研究肺癌发病率的地理分布, 如果你有兴趣寻找与非吸烟相关的危险 因素导致的集群, 你应该对吸烟进行调整, 但如果你有兴趣寻找反映特别迫切需 要开展反吸烟运动的地区的集群, 你不应该对吸烟进行调整。
例如, 当发病率随年龄而变化, 而不同地区的年龄分布也不同时, 那么仅仅由于年龄协变 量, 就存在该疾病的地理聚类。 当调整分类协变量时, SaTScan程序将搜索超出这些协变 量预期的集群。 当指定多个协变量时, 每个协变量以及它们之间的所有交互项都会被调整。

使用输入文件进行协变量调整

使用泊松和时空排列模型, 可以通过在输入文件中指定协变量来调整多个分类协变量。为 此, 只需在案例文件(两个模型)和总体文件(泊松模型) 中输入协变量作为额外列即可。 不需要在任何窗口选项卡上输入任何信息。
对于泊松模型, 在零假设下, 使用间接标准化计算每个区域的期望病例数。在没有协变量 调整的情况下, 一个地点的期望病例数为(空间分析):
E/C]=P*C/P
其中c是观察到的病例数, p是感兴趣地点的总体, 而c和p分别是病例总数和总体。设ci,pi, Ci和Pi 以相同的方式定义, 但针对协变量类别i。 间接标准化协变量调整的期望病例数(空 间分析)为:

在计算时空扫描统计量的协变量调整病例数时, 使用了相同的原理, 尽管由于增加了时间 维度, 公式更加复杂。
由于时空排列模型会自动调整纯空间和纯时间变化, 因此不需要调整协变量以解释这些协 变量的不同空间或时间密度。例如, 没有必要仅仅因为某些地方老年人比例较高而对年龄 进行调整。相反, 如果由于这个协变量而不是由于潜在的疾病过程而存在时空相互作用, 则使用协变量调整。例如, 如果儿童大多在夏季生病, 成人大多在冬季生病, 那么在夏季 儿童较多的地区, 就会出现年龄产生的时空相互作用集群, 反之亦然。 当包括儿童/成人作 为协变量时, 这些集群就会被调整掉。
注意:太多协变量类别会产生问题。对于时空排列模型, 在随机化阶段进行调整, 使每个 协变量类别独立随机化。如果协变量类别太多, 使一个类别中的全部或大部分情况属于同 一空间地点或相同的聚合时间间隔, 那么可以随机化的余地就很小, 检验就变得毫无意义了。
相关主题:协变量调整、统计回归软件协变量调整、多数据集协变量调整、方法学论文、泊 松模型、时空排列模型、个案档案、人口档案。

使用统计回归软件进行协变量调整

SaTScan本身不能对连续协变量进行调整。这种调整仍然可以对泊松模型17,26进行, 但它 稍微复杂一些。第一步是使用SAS等标准统计回归软件包计算每个位置ID和时间的协变 量调整的预期病例数。然后, 这些预期数应该替换种群文件中的原始种群数, 同时不包 括协变量本身。
使用外部回归软件也是一个很好的方法来调整协变量在指数模型8。 第一步是拟合一个没 有任何空间信息的指数回归模型, 以便获得每个协变量的风险估计。第二步是根据他或 她的协变量的风险估计值, 向上或向下调整每个个体的生存和审查时间。
对于正态模型, 协变量可以通过首先使用标准统计软件进行线性回归来调整, 然后用它 们的残差替换观测值。
相关主题:协变量调整,使用输入文件的协变量调整,使用多数据集的协变量调整,指数 模型,方法学论文,泊松模型,人口文件。

使用多数据集的协变量调整

也可以使用多个数据集来调整分类协变量11。 然后将病例和对照/总体划分为类别, 每个 类别使用一个单独的数据集。这种类型的协变量调整在计算上比使用输入文件的调整慢 得多, 不建议用于大型数据集。一个优点是, 在运行多项或序数模型时, 它可以用于调 整协变量, 而其他调整过程则不可用。缺点是, 由于SaTScan允许的最大数据集数量是 12, 所以协变量类别的最大数量也是12。
对多个数据集的调整方法如下(在搜索具有高率的聚类时):

  1. 对于每个窗口位置和大小, 计算每个数据集的对数似然比。
  2. 窗口中所有少于预期病例数的数据集的对数似然比乘以- 1。
  3. 然后将对数似然比相加, 这个和就是该特定窗口的组合对数似然。
  4. 所有组合的对数似然比的最大值, 占据了所有窗口的位置和大小, 构成了最可能 的聚类, 其评估方式与单个数据集相同。
    当搜索具有低概率的聚类时, 执行相同的过程, 只是我们将具有多于预期情况的数据集 乘以1。 当搜索高和低聚类时, 计算两者的和, 并使用两者的最大值来表示该窗口的对 数似然比。

相关主题:多数据集标签,协变量调整,使用输入文件的协变量调整,使用统计回归软件的 协变量调整,方法学论文,伯努利模型。

时空调整

调整时间趋势

如果数据中有一个增加的时间趋势, 那么时间和时空扫描统计将通过在研究期结束时分 配一个集群来获取这一趋势。 如果有下降趋势, 它将在时间段开始时选择一个集群。 有 时, 在对时间趋势进行调整后, 测试是否存在时间和/或时空集群是很有趣的。
对于时空排列模型, 分析会自动针对时间趋势和时间簇进行调整, 不需要进一步调整。 对于离散泊松模型, 用户可以指定是否应该进行时间调整, 如果是, 是否以百分比变化 或非参数调整。
有时, 调整时间趋势的最佳方法是指定要调整的比率的年增长或减少百分比。 这是一个 对数线性调整。 根据应用的不同, 可以根据SaTScan根据分析数据估计的对数线性趋势进 行调整, 也可以根据国家或其他类似数据估计的趋势进行调整。 在后一种情况下, 必须 使用标准的统计回归软件(如SAS或R) 计算增加或减少的百分比, 然后插入到“空间和 时间调整”选项卡中。或者, SaTScan可以计算对数二次趋势, 而不是对数线性趋势。
对于时空泊松和伯努利分析, 也可以对时间趋势进行非参数调整。 这对每个聚合时间间 隔分别调整预期计数, 去除所有纯时间聚类。 然后按时间间隔对随机化进行分层, 以确 保每个时间间隔在真实和随机数据集中具有相同数量的事件。
对于多项、 序数、 正态和指数模型来说, 调整时间趋势的能力要有限得多, 因为上述特 征都不能使用。 相反, 必须将时间划分为离散的时间段, 每个时间段内的病例和对照对 应于一个单独的数据集, 具有单独的病例和对照文件。然后使用多个数据集进行分析。
相关主题:时空调整选项卡,时间聚合,调整一周中的一天的影响,泊松模型。

调整一周中的一天的效果

一些数据集有每周的模式。如果不进行调整, 这可能会产生集群, 例如在周一, 或者从一 个周一到下一个周一, 仅仅是因为周一通常比一周中的其他日子有更多的事件。对此进行 调整的一种方法是将每日数据汇总到周中, 但这会降低时间分辨率。 另一种选择是选择 “空间和时间调整”选项卡上的周调整功能, 该功能将对数据中的任何周调整进行非参数 调整。这一特征只适用于离散泊松概率模型。
非参数时间调整和时空排列模型会自动调整数据中任何纯粹的时间变化, 包括星期影响。 因此, 永远不需要做任何特殊的星期调整。

SaTScan User Guide v10.1 21

如果不同的空间位置有不同的星期效应, 这可能会导致虚假的时空相互作用集群。例如, 如果疾病数据来自不同的医疗诊所, 但只有部分诊所在周末开放。这可能会导致周末聚集 在那些诊所, 而这些诊所只是他们开放时间的产物。 为了调整这一点, 可以通过在空间和 时间调整选项卡上选择该选项来调整按周的空间交互。这样做与在输入案例文件中包含星 期几变量具有完全相同的效果。这个特征只对时空排列模型有效。
相关主题:时空调整选项卡,调整时间趋势,时间聚合,泊松模型。

调整纯空间集群

在泊松模型的时空分析中, 也可以以非参数方式调整纯空间集群。这对每个位置分别调整 预期计数, 去除所有纯空间集群。然后根据位置ID对随机化进行分层, 以确保每个位置在 真实和随机数据集中具有相同数量的事件。
这个选项不适用于伯努利、 多项、序数、指数、 正常或时空排列模型, 在后一种情况下, 因为该方法会自动调整任何纯空间集群。
使用分层随机化, 不可能同时调整空间簇和纯时间簇。如果选择了两种非参数调整, 则通 过将每个位置的预期计数设置为等于观察到的计数来调整空间, 同时调整时间以使用分层 随机化。对空间和时间进行非参数调整的另一种方法是使用时空排列模型。后一种方法不
利用背景人口文件, 根据应用的不同, 这可能是一件好事, 也可能不是, 相关主题:时空调整选项卡,泊松模型,调整时间趋势。
调整已知相对风险
有时我们先验地知道某个特定位置和/或时间具有已知量级的更高或更低的风险, 我们希望 检测高于或超过此量级的群集, 或者换句话说, 我们希望针对这个已知的超额/较低风险进 行调整。 一种方法是简单地改变种群文件中处于风险中的种群数。 一种更简单的方法是使 用调整文件。在这个文件中, 为任何地点和时间段组合指定了相对风险。然后将预期计数 乘以该地点和时间的相对风险。例如, 如果从历史数据中得知, 特定地点在夏季6月至8月 期间通常有50%以上的病例, 那么对于每年, 人们将指定该地点和这些月份的相对风险为1.
5。那么, 只有当超额风险超过50%时, 夏季群集才会出现在该位置。 这个特征只适用于离散泊松模型。
相关主题:调整文件,时空调整选项卡,时间聚合,泊松模型,缺失数据

缺失的数据
如果某些地点和时间的数据缺失, 在分析中进行调整是很重要的。如果没有, 你可能会在 有缺失数据的地方发现统计上显著的低率集群, 或者在其他位置发现统计上显著的高率集 群, 即使这些只是缺失数据的人工制品。

伯努利模型

要对缺失数据调整伯努利模型分析, 请执行以下操作。如果缺少特定位置和时间段的病例, 则 删除同一位置和时间的控制。 同样, 如果缺少特定位置和时间的控件, 则删除同一位置和时间 的案例。这需要在向SaTScan提供数据之前完成。如果case和控件在某个位置和时间都丢失了, 你就没事了, 不需要对输入数据做任何修改。
多项和序数模型
要对缺失数据调整多项或序数模型分析, 请执行以下操作。如果某一特定地点和时间段缺少一 个或多个类别, 则从同一地点和时间删除其余类别中的所有案例。这需要在向SaTScan提供数 据之前完成。如果在一个地点和时间内, 所有类别的所有案例都缺失了, 你就没事了, 也不需
要对输入数据进行任何修改。
离散泊松模型
若要针对缺失数据调整离散泊松模型, 请使用调整文件定义数据缺失的位置和时间组合, 并为 这些位置/时间组合指定相对风险为零。
连续泊松模型
为了调整缺失数据的连续泊松模型, 需要使用一组不同的多边形重新定义研究区域, 以便将缺 失数据的区域排除在研究区域之外。
时空置换模型(时空置换模型)
在时空排列模型中调整缺失的数据有点复杂, 但仍然是可能的5。首先在分析文件中添加星期 数作为协变量。 当一个特定的位置/时间段缺失时, 然后对于该位置, 删除丢失任何数据的一周 中天数的所有数据。例如, 如果邮政编码区域A缺少10月23日星期四和10月24日星期五的数据, 区域B缺少10月25日星期六的数据, 则删除区域A所有星期四和星期五的数据以及区域B所有星 期六的数据, 同时保留区域A星期六到星期三的所有数据以及区域B除星期六以外的所有数据。 对于所有其他邮政编码区域, 保留所有日期的所有数据。需要注意的是, 除了对缺失的数据进 行调整外, 这种方法还会根据空间交互效应对任何一天进行调整。
同样的方法也可以用于数据的其他分类, 只要分类是在一些发生多次的时间周期单元中, 并且 在研究期间均匀分布。例如, 如果研究周期跨越数年, 则可以将其分类为月份, 但如果只有一 年的数据, 则不行。
在时空排列模型中处理缺失数据的两种更粗糙的方法是, 如果某个特定位置的某些数据缺失, 则删除该位置的所有数据;或者对于任何位置存在缺失数据的日期, 则删除特定时间段的所有 数据。后者在研究期开始时对缺失数据的前瞻性监测中特别有用, 以避免删除对早期发现疾病 爆发最重要的近期数据。

注: 当存在缺失数据的地点/时间组合时, 要么从病例档案中删除整行, 要么将零病例分 配给该地点/时间组合。如果只删除了案例数, 但保留了位置ID和时间信息, 则会出现文 件读取错误。
警告:只有当数据丢失的位置和时间独立于该位置和时间的案例数时, 对丢失数据的调 整才有效。例如, 如果观测病例数少于5个的所有地点的数据都缺失, 则上述调整程序将 无法正常工作。
相关主题:调整文件、已知相对风险调整、伯努利模型、序数模型、泊松模型、时空排列模 型、时空调整选项卡、时间聚合
多数据集的多元扫描
有时在多个数据集中同时搜索和评估聚类是很有趣的。例如, 人们可能对仅白血病、仅 淋巴瘤或两者同时过量发生率的空间簇感兴趣。另一个例子, 人们可能对检测仅影响儿 童、仅影响成人或同时影响两者的胃肠道疾病爆发感兴趣。如果使用SaTScan来分析单个 组合数据集, 则可能会错过仅存在于其中一个子组中的群集。另一方面, 如果执行两个 SaTScan分析, 每个数据集一个, 如果真正的集群在两个数据集中的强度差不多, 则会有 功率损失。具有多个数据集和多变量扫描选项的SaTScan分析解决了这个问题。
多数据集的多变量扫描统计量的工作原理如下12(当搜索具有高率的集群时):

  1. 对于每个窗口位置和大小, 计算每个数据集的对数似然比。
  2. 对超过预期病例数的数据集的对数似然比进行求和, 这个和就是该特定窗口的似然。
  3. 所有求和的对数似然比的最大值, 占据了所有窗口的位置和大小, 构成了最可能的 聚类, 其评估方式与单个数据集相同。
    当搜索具有低概率的聚类时, 执行相同的过程, 只是我们对所讨论的窗口内少于预期数 量的数据集的对数似然比求和。 当搜索高和低聚类时, 计算两者的和, 并使用两者的最 大值来表示该窗口的对数似然比。
    注意:所有数据集必须使用相同的概率模型和相同的地理坐标文件。 相关主题:多数据集标签,使用多数据集的协变量调整,坐标文件。

4.与其他方法的比较

扫描数据

扫描统计首先由约瑟夫诺斯184详细研究。扫描统计的一个主要挑战是找到关于观察特定大小 的群集的概率的分析结果, 并且已经开发了一个漂亮的数学理论集合, 以获得各种设置下 这些概率的近似值和界限。Glaz和Balakrishnan174, Glaz, 诺斯和Wallenstein175 以及Glaz,
Pozdnyakov和Wallenstein246对这项工作进行了出色的评论。这项早期扫描统计工作的两个共 同特征是:(i)他们使用固定大小的扫描窗口,(ii)他们处理计数数据, 其中在零假设下, 观察到的病例数在连续或离散设置中遵循均匀分布, 因此一个区域内的预期病例数与该区 域的大小成正比。
在疾病监测中, 这两个假设都不满足, 因为我们先验地不知道集群的大小, 而且由于处于 风险中的人群在地理上是不均匀的。在疾病风险相等的零假设下, 人们期望在城市中看到 的疾病病例比在农村类似大小的区域中看到的病例更多, 仅仅是因为城市的人口密度更高。 SaTScan软件中的扫描统计就是为了解决这两个问题而开发的。 由于没有找到解析解来获 得这些更复杂设置下的概率, 因此使用蒙特卡罗假设检验来获得p值14。

空间和时空聚类 描述性聚类检测方法

1987年, Openshaw等人185开发了一种地理分析机(Geographical Analysis Machine, GAM), 它采用与空间扫描统计量相同的方式使用不同大小的重叠圆, 只是圆的大小不是连续变化 的。使用GAM, 对每个圆进行单独的显著性测试, 导致多次测试, 并且在几乎任何数据集 中, 都会以这种方式定义大量的“显著簇 ”。这是因为在零假设下, 每个圆在0.05水平上 具有“显著” 的0.05概率, 并且在没有聚类的零假设下, 对于20,000个圆, 我们预计会有1, 000个“显著”聚类。 因此, GAM对于描述性目的非常有用, 但不应用于假设检验。
Rushton和Lolonis187提出了另一种很好的描述性聚类检测方法, 他们使用p值等高线图来描 绘聚类, 而不是重叠的圆圈。与GAM一样, 它不会对评估的许多潜在集群位置中固有的多 重测试进行调整。

聚类检测测试

空间扫描统计是一个聚类检测测试。聚类检测测试既可以检测聚类的位置, 也可以评估它 们的统计显著性, 而不会出现多次测试的问题。 1990年, 特恩布尔等191首次提出了用固定 人口规模的重叠圆圈进行检测, 将病例最多的圆圈指定为检测到的聚类。
空间扫描统计的部分灵感来自Openshaw等人185和特恩布尔等人191的工作。通过应用似然比检 验, 可以评估不同大小的簇(如Openshaw等人所做的) , 同时调整多重检验(如特恩布尔 等人所做的)。

在功率比较中, 结果表明, 如果真实簇大小在该方法指定的20%以内, 特恩布尔方法具有更 高的功率, 而空间扫描统计量在其他情况下具有更高的功率。 请注意, 特恩布尔方法中的簇 大小必须在查看数据之前指定, 否则该过程无效。
聚焦聚类测试
当有关于假设聚类的位置的先验知识时, 应该使用集中测试。 例如, 一个国家有毒废物场址 周围的群集可能会促使对另一个国家类似有毒废物场址周围的群集进行调查。 因此, 不应使 用空间扫描统计或其他聚类检测测试, 因为即使已知假设位置, 也要对所有可能的位置进行 评估, 因此它们的功率很低。集中测试的例子是Stone的测试188, Lawson-Waller的分数测试181, 192和Bithell的测试170。
当焦点是用数据本身定义的时候, 不应该使用焦点测试。这将导致预选偏差, 所得的p值将是 不正确的。 因此, 最好使用空间扫描统计量。 另一方面, 如果在没有查看数据的情况下定义 了点源, 那么使用聚焦测试而不是空间扫描统计量更好, 因为前者将具有更高的功率, 因为 它专注于感兴趣的位置。
除了各种扫描统计外, SaTScan软件还可用于进行聚焦测试, 以评估在预先确定的焦点周围是 否存在疾病群集(参考文献2, p809)。这是通过使用网格文件来完成的, 网格文件中只有一 个网格点, 反映感兴趣焦点的坐标。 类似地, 可以使用网格文件为每个期望的焦点指定一个 坐标来指定多焦点测试。

全局聚类测试

大多数提出的空间聚类测试都是针对全局聚类的测试。这些方法包括Alt和Vach, Besag和Newell,
Cuzick 和 Edwards 赤 , Diggle 和 Chetwynd172, Grimson176, Moran, Ranta, Tango, Walter 和 Whittemore等人提出的许多方法。这些方法测试了整个研究区域的聚类, 而没有能力精确定位 特定聚类的位置。 因此, 这些测试和空间扫描统计相辅相成, 因为它们对不同的目的都很有 用。
全局时空相互作用测试
Knox178、Mantel182、Diggle等人173、Jacquez177、Baker168、Kulldorff和Hjalmars180提出了不同的时空相 互作用测试。 与时空扫描统计量的时空排列5版本一样, 这些方法旨在评估在空间上接近的情 况是否在时间上也接近, 反之亦然, 并根据任何纯粹的空间或纯粹的时间聚类进行调整。 由 于具有全局性, 这些其他测试在测试整个研究区域和时间段是否存在聚类时非常有用, 并且 在例如试图确定疾病是否具有传染性时首选方法。 然而, 与基于时空排列的扫描统计不同,
它们无法检测集群的位置和大小, 也无法测试这些集群的重要性。
相关主题:似然比检验,SaTScan方法学论文

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

rgb2gray

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值