有序Logistic回归和多分类Logistic回归的因变量均有多个分类水平,但是前者
分类水平是有顺序、等级属性的
。比如临床试验的疗效分为无效、好转、有效和治愈四个等级,在社会调查类研究满意度分为1~5层级。
1. 模型原理
由于因变量是等级资料的特征,有序Logistic回归模型称之为累加Logit模型,其原理是对因变量水平分割后形成多个二元Logistic回归模型,同时假设多个模型中的自变量回归系数不变,不同的仅是模型的常数项,
可通俗理解为模型的回归曲线是平行的。
如图 5-28所示,以Y有3个水平为例,编码依次为1、2、3,按序依次产生两个分割点,拆分出两个二元Logistic回归模型。第一个模型为(1 vs 2+3),第二个模型为(1+2 vs 3),一般上参照水平均取较高等级。也就是说,
k个水平将得到k-1个二元Logistic回归模型。这k-1个模型要求回归自变量不变,仅常数项改变。
2. 重要概念
(1) 连接函数
连接函数可以理解为是累计概率的转换形式,用于累计概率模型的估计。有序Logistic回归通常包括五种连接函数,具体见下表 5-31。
平台默认使用Logit连接函数,如模型没有特殊要求,一般建议使用Logit连接函数,
其在因变量分类水平较少时较为常用。连接函数可能会影响到对平行性检验,如果平行性检验无法通过时,可考虑根据因变量分布情况选择更为合适的连接函数。
(2) 平行性检验
累加Logit模型需要对因变量分类水平进行分割,然后对分割后的数据进行Logistic回归,此时要求分割后的模型参数满足平行性,即
Logistic回归模型中的各自变量偏回归系数要求相等。
该
检验假设数据满足平行性
,因此只需要看检验的
p
值是否大于0.05,若
p
值大于0.05则说明平行,反之如果
p
值小于0.05则不满足平行性条件。如果不满足,可以结合有序结局的比例分布情况选择合适的连接函数,重新进行分析和检验。如最终认定无法满足该条件,则可考虑使用多分类logistic回归进行分析。
3. 有序Logistic回归分析步骤
有序Logistic回归分析的步骤和前面的二元、多分类Logistic回归略有不同,如下图 5-29所示。
(1) 基本条件判断
因变量须是等级数据,例如药物治疗的疗效(无效、有效、显著有效),或者顾客满意度(非常不满意、不满意、一般、满意、非常满意)。共线性、异常值等要求同前面二元Logistic回归。
(2) 建立Logistic回归模型
一般选因变量的最大水平作为参考水平,先以Logit连接函数建立有序Logistic回归模型。也可以根据专业经验调整因变量的编码水平,方便后面结果的解释分析。
(3) 平行性检验
模型分割后要求各自变量偏回归系数要求相等,需要通过平行性检验。如果不满足平行性条件,则可考虑调整连接函数重新进行检验,如最终结果认定无法满足,则考虑将有序因变量视为无序多分类类型,使用多分类logistic回归进行分析。
步骤(4) (5) (6)的分析和前面二元、多分类Logistic回归基本一致,此处不做赘述。
4. 有序Logistic回归实例分析
【例5-10】研究性别和两种治疗方法对某病疗效的影响,疗效的评价分为三个等级,无效、有效和显效,数据变量赋值见表 5-32。试分析疗效与性别、疗法之间的关系。案例数据来源于张文彤(2002),数据文档见“例5-10.xls”。
1) 基础条件判断
治疗效果分为三个层级,依次是无效=1,有效=2,显效=3,为有序的多分类变量。主要考虑性别和新旧两种治疗方法对疗效的影响,应采用有序Logistic回归。
2) 建立有序Logistic回归模型
数据读入平台后,仪表盘中依次选择【进阶方法】→【有序Logit】模块,将“疗效”拖拽至【Y(定类)】,“性别”和“疗法”变量拖拽至【X(定量/定类)】。
在【平行性检验】下拉框内选择【进行检验】,在【连接函数】下拉框内默认勾选【默认Logit】,相关操作见图 5-30。
3) 平行性检验
作为有序logistic回归的适用条件,我们先判断数据是否满足平行线条件,本例结果见表5-33。
经检验,卡方值=1.649,
p
=0.48﹥0.05,模型通过平行性检验,使用有序Logistic回归进行分析是合适的。
4) 模型显著性检验
如表5-34所示,经检验,卡方值=19.887,
p
﹤0.01,认为模型总体上有统计学意义,模型有效。反之如果
p
值大于0.05则提示模型无效。
表中的AIC、BIC,以及-2LL,和二元Logistic回归解读一致,均为取值越小越好,主要用于多个模型间的比较,此处意义不大。
5) 模型回归系数、OR值
本例因变量有3个等级,将得到2个模型,这两个模型中自变量的偏回归系数不变而常数项不同,结果如下表535所示。
表中“因变量阈值”指的是两个模型常数项估计结果,“自变量”则是两个模型的自变量偏回归系数的估计结果。
两个模型的常数项依次为1.813、2.667,经Wald 卡方值检验,性别“sex”(Wald 卡方=6.210,
p=
0.013﹤0.05),疗法“treat”(Wald 卡方=14.449,
p
﹤0.01),认为性别和疗法对疗效的作用都有统计学意义。性别“sex”和疗法“treat”的OR值为依次为3.739、6.033,表明对女性患者来说疗效优于男性,而新疗法的疗效优于旧疗法。
6) 结果报告
根据表中常数项和偏回归系数(注意,写表达式时回归系数取负数),可以写出两个模型的表达式为:
logit[P(effect≤无效)/(1-P(effect≤无效))]=1.813-1.319×sex-1.797×treat
logit[P(effect≤有效)/(1-P(effect≤有效))]=2.667-1.319×sex-1.797×treat
性别和疗法对疗效的作用有显著影响,对女性患者来说疗效优于男性,而新疗法的疗效优于旧疗法。
以上内容摘自
《SPSSAU科研数据分析方法与应用》
第5章——相关影响关系研究,书中不仅涵盖了数据清理、统计分析和模型构建等内容,还提供了丰富的案例,以便于读者在实际研究中应用。
ologit_restrict.m 是要提交给优化工具(最显着的是 fminunc)的函数。 它接受由用户提交的函数“应用限制”(见下文)创建的形式的限制矩阵。 它还接受用户为每个观察指定的权重。
运行脚本“ologit_test.m”来测试功能。
【机器学习】
logistic回归
原理
分析及python实现1.sigmoid函数和
logistic回归
分类器2.梯度上升最优化算法3.数据中的缺失项处理4.logistic实现马疝气病预测 首先阐述
logistic回归
的定义,然后介绍一些最优化算法,其中包括基本的梯度上升算法和改进的随机梯度上升算法,这些最优化算法用于分类器的训练,最后给出
logistic回归
实例,预测一匹有疝气病的...
一、模型简介
有序
多分类
logistic回归
用于因变量为
有序
多分类的情况,如患者对药物的反应y共有三种情况:疗效差、一般和好。定义y=1(疗效差)、y=2(疗效一般)、y=3(疗效好)。对于
有序
多分类
logistic回归
,模型将因变量的多个分类依次分割为多个二元
logistic回归
。如3种不同疗效的患者,分析时拆分为2个二元
logistic回归
,分别为 (1vs 2 3) 、(1 2 vs...
Logistic回归
分析用于研究X对Y的影响,并且对X的数据类型没有要求,X可以为定类数据,也可以为定量数据,但要求Y必须为定类数据,并且根据Y的选项数,使用相应的
数据分析
方法。
一、离散选择模型(Discrete Choice Model, DCM)
常见的DCM模型:二项Logit(Binary Logit)、多项Logit(Multi-nominal Logit)、广义Logit(Generalized Logit)、条件Logit(Conditional Logit)、层式Logit(Nested Logit)、
有序
Logit/Probit(Ordered Logit/Probit)、混合Logit(Mixed Logit)等
拟合离散选择模型的软件:SAS、NLOGI
1、问题与数据
在某胃癌筛查项目中,研究者想了解首诊胃癌分期(Stage)与患者的经济水平的关系,以确定胃癌筛查的重点人群。为了避免性别因素对结论的混杂影响,研究者将性别(Sex)也纳入分析(本例仅为举例说明如何进行软件操作,实际研究中需控制的混杂因素可以更多)。研究者将所有筛查人群的结果如表1,变量赋值如
首先多元
有序
logistic回归
是针对因变量水平数大于2并且为
有序
变量10的一个情况。做了一个多因素
Logistic回归
分析得到的结果呢就是一个独立影响因素。π2π3呢就是水平数2和3发生的概率然后这个π一比上π二加π三。
SPSS
关于有
有序
logistic这些
回归分析
的一些模块。说明这个模型是显著的也就是说至少有一个变量的系数是显著的。看到左侧是放置我们变量的因变量就放置我们的这个
有序
变量。说明是满足平
有序
logistic这个
回归分析
的一个条件。你看他这说明的是将表一中有差异的变量作为4变量。
多元
有序
逻辑回归基于概率模型,它假设因变量的每个类别与一个潜在的连续变量(或称为对数优势)相关联。这个潜在变量的大小决定了观察到的
有序
分类结果。模型的目标是估计自变量对潜在变量的影响,以及它们如何影响因变量在不同
有序
类别之间的概率。多元
有序
逻辑回归用于分析
有序
分类因变量与一个或多个自变量之间的关系。
有序
逻辑回归适用于因变量具有自然排序但没有固定间距的类别,例如疾病严重程度(轻度、中度、重度)或调查问卷中的满意度评分(非常不满意、不满意、一般、满意、非常满意)。
有序
分类
logistic回归
正如字面理解,包含两个方面:一是
有序
性,如调研中常用的满意度常用李克特量表,即
有序
的因变量;二是logistic分类,如1代表优秀、2代表良好、3代表一般等等。
因变量为分类变量,且分类间有次序关系,针对因变量为分类型数据的情况应该选用
Logistic回归
,故应采用
有序
多分类的
Logistic回归
分析模型
进行分析。
常应用的方向为:空气污染预测、医学类研究、心理学研究...