SPSS七类一致性检验方法汇总 - 知乎 - 程序猿·D·安宇雨 DeepMind

SPSS七类一致性检验方法汇总 - 知乎

安宇雨 - 随手采集
2024-02-22 14:16:03
随手采集
0000-未整理-等待研究

一、一致性检验定义

在做数据分析时，我们经常会遇到一致性检验的问题，即判断不同的模型或者分析方法在产出结果上是否具有一致性、模型的结果与实际结果是否具有一致性等。

一致性检验的目的在于比较不同方法得到的结果是否具有一致性。

例如：

核酸检测鼻拭子和咽拭子检测结果的一致性；

多位评委对运动员打分结果的一致性；

甲乙两位专家对肿瘤患者的病理切片的分析评定结果是否一致等。

一致性检验常用方法

在SPSSAU系统中，共提供7类一致性检验的相关方法，如下图所示：常见的包括Kappa一致性检验、Kendall协调系数、ICC组内相关系数等。每种方法的功能侧重和对数据格式的要求都略有不同，下面将逐一进行说明。

‍1、Kappa一致性检验

（1）数据类型

Kappa一致性检验适用于定类数据。

使用Kappa系数衡量一致性水平。Kappa系数取值在0～1之间，通常情况下：

Kappa<0.2则说明一致性程度较差；

0.2~0.4之间说明一致性程度一般；

0.4~0.6之间说明一致性程度中等；

0.6~0.8之间说明一致性程度较强；

0.8~1.0之间说明一致性程度很强。

（2）分类

Kappa一致性检验分为简单Kappa、加权Kappa、Fleiss Kappa系数；加权Kappa又细分为线性加权Kappa和二次加权Kappa。

几类Kappa一致性检验区别说明如下：

简单Kappa：普通定类数据

如果研究的数据为绝对的定类数据：如阳性or阴性，此时使用简单Kappa。

例如：研究鼻拭子和咽拭子两种核酸检测方式对于核酸检测结果呈阳性or阴性的一致性程度。

加权Kappa：有序定类 or 考虑权重

如果研究的数据为等级式定类数据：如满意、一般、不满意，此时使用线性加权Kappa。

例如：研究两位学者对于不同作品满意度（满意、一般、不满意）的一致性程度。

（提示：如果使用加权Kappa，一般使用线性加权Kappa）

Fleiss Kappa：对比两项以上的一致性

如果研究的数据为对比三项以上的结果一致性，此时使用Fleiss Kappa。

例如：研究三位专家对肿瘤患者病理切片的分析评定结果的一致性程度。

（3）数据格式

简单Kappa

如果说数据没有 ‘ 加权 ’ ，共50个样本，那么总共50行；分别表示鼻拭子或者咽拭子的检测结果；此时则没有加权数据，也不需要进行加权项放置，数据格式如下表：

加权Kappa

学者对于作品满意度分为满意、一般、不满意三种。因此3*3共有9种组合；单独使用一列数据表示每种组合的数量（即权重），数据结构如下表：

上表说明，学者1满意，学者2满意的作品数量为8；学者1满意，学者2一般的数量为2等等。

Fleiss Kappa

比较两项以上的一致性，数据格式如下表：

提示：Fleiss Kappa不支持 “ 加权项 ”

（数据均为虚构，仅做展示说明）

（4）SPSSAU展示

以线性加权Kappa为例：

从上表可以看出，Kappa一致性检验呈现出显著性（p=0.000<0.01），说明A医生与B医生检验结果具有一致性；Kappa值为0.74，介于0.6和0.8之间，说明一致性较强。

‍2、Kendall协调系数

Kendall协调系数，也称作Kendall和谐系数，或Kendall一致性系数。通常用于比较多组数据的一致性程度。

（1）数据类型

Kendall协调数据适用于定量数据。Kendall协调系数用于测量评分数据一致性水平。取值在0～1之间，通常情况下：Kendall协调系数 <0.2则说明一致性程度较差；0.2~0.4之间说明一致性程度一般；0.4~0.6之间说明一致性程度中等；0.6~0.8之间说明一致性程度较强；0.8~1.0之间说明一致性程度很强。

（2）数据格式

数据格式为：1个评委为1列；1个选手为1行；4个评委6个选手，因此共有4列和6行数据。

在分析时：需要将对应的6行数据放入分析框中。

如果行列转置，则对应的将数据格式选择为 ‘ 评价者（行）’。

（3）SPSSAU展示

从上表可以看出：Kendall协调系数检验呈现出显著性(p=0.003<0.05)，意味着4个评价者的评价具有关联性，即说明评价具有一致性。同时Kendall协调系数为0.900，大于0.8，说明评价一致性程度很强。

‍3、ICC组内相关系数

ICC组内相关系数是用于研究评价一致性，评价信度，测量复测信度（重测信度）的一种研究方法。

（1）数据类型

ICC组内相关系数相比于Kappa和Kendall系数使用范围更广，适用于定量和定类数据。

ICC组内相关系数用于测量评分数据一致性水平。ICC取值在0～1之间，通常情况下：

ICC <0.2则说明一致性程度较差；

0.2~0.4之间说明一致性程度一般；

0.4~0.6之间说明一致性程度中等；

0.6~0.8之间说明一致性程度较强；

0.8~1.0之间说明一致性程度很强。

（2）ICC模型选择使用

ICC模型选择共涉及三个方面，分别为单向/双向、混合/随机、一致性/绝对一致性，分别说明如下：

① 单向 / 双向

若希望研究测量的数据是否完全相等时，此时选择单向ICC模型；

若希望研究测量数据之间的一致性程度，此时选择双向ICC模型。

② 混合 / 随机

双向混合和双向随机模型，从原理角度上进行了区分，但从算法计算的角度上看，其二者的数字计算结果完全一模一样，并没有任何区别。因而在分析时，只需描述选择过程，计算结果上双向混合和双向随机模型的结果完全一致。

③ 一致性 / 绝对一致性

如果研究中考虑系统误差问题，此时需要选择绝对一致性计算类型；

如果不需要考虑系统误差时，此时选择一致性计算类型。

特别说明一点在于，单向模型只有绝对一致性。

综上所述，SPSSAU共提供三类选项，汇总说明如下：

除此之外：不论是双向混合，双向随机，还是单向随机模型；均会输出单一度量或者平均度量这两个指标值。

④ 单一度量 / 平均度量

单一度量：比如多位医生通过一项测试对抑郁症患者进行抑郁程度打分。此时数据为原始数据，应该使用单一度量。

平均度量：比如多位医生通过对抑郁症患者进行多项测试，得出平均得分后，进行打分。此时的数据为多项测试平均后的得分，故应该使用平均度量。

综上所述，结合3个模型，以及计算类型和度量标准，ICC模型一共可分为六个，如下表汇总：

（3）数据格式

ICC组内相关系数的使用范围较广，但其复杂度相对较大；需要特别注意数据格式。

假设3个医生对于10个病人智商分值打分，录入后的ICC数据格式如下：

（4）SPSSAU展示

若使用的是原始数据，则使用单一度量的ICC组内相关系数0.921；

若使用的是计算后数据，则使用平均度量的ICC组内相关系数0.972。

从上表可以看出三位医生对于病人智商打分的一致性程度很强。

4、组内评分者信度rwg

在社会科学或医学相关研究中，会出现多层次（多水平）层面的跨层数据，比如研究个体是学生，但是学生隶属于学校。

（1）数据格式

例如：当前有一项关于员工团队合作能力的打分数据，共有10个员工，并且10个员工分成2个组别。其使用6个测量项进行测量（并且使用5级量表打分制）。因而共有10个员工则为10行数据，并且单独使用group来标识组别（1组和2组），6个测量项共计6列。单独还有一列为subject即员工的编号此列数据在分析时不需要使用无分析意义。最终数据格式如下：

（2）指标说明

SPSSAU提供的rwg分析方法，共提供三个指标分别是rwg值，ICC1值和ICC2值，3个指标的意义分别说明如下：RWG值：研究团队成员合作水平一致性情况如何；ICC1：研究单独每个裁判（打分者）的一致性情况；ICC2：研究几个裁判(打分者)平均一致性的信度情况。事实上rwg值、ICC1值和ICC2值的意义均在于评价一致性情况。但通俗理解来看（从站在角度上），rwg值可理解为研究 ‘行’ 数据的一致性，ICC1或ICC2值研究 ‘列’ 数据的一致性情况。

在本案例中：

rwg值研究整体10个成员的得分一致性情况；ICC1值研究每个测量项的得分一致性情况；ICC2值研究6个测量项得分上的一致性情况。

上述三个指标的常用标准如下：