这类统计模型(也称为 logit 模型 )通常用于分类和预测分析。由于结果是概率,因此因变量的边界介于 0 和 1 之间。在逻辑回归中,对几率(即成功概率除以失败概率)应用 logit 变换。这通常也称为对数几率或几率的自然对数,此逻辑函数由以下公式表示:

Logit(pi) = 1/(1+ exp(-pi))

ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k

在这个逻辑回归方程中,logit(pi) 是因变量或响应变量,x 是自变量。此模型中的 beta 参数或系数,通常通过最大似然估计 (MLE) 进行估算。此方法通过多次迭代测试不同的 beta 值,以优化对数几率的最佳拟合。所有这些迭代都会产生对数似然函数,逻辑回归旨在最大化该函数以找到最佳参数估计值。一旦找到最佳系数(如果存在多个自变量,则有多个系数),就可以计算、记录每个观测值的条件概率并将其相加,以产生预测概率。对于二元分类,小于 0.5 的概率将预测 0,而大于 0 的概率将预测 1。计算模型后,最佳做法是评估模型预测因变量的准确程度,这称为拟合优度。Hosmer–Lemeshow 检验是评估模型拟合度的常用方法。

在逻辑回归数据分析中,对数几率可能很难理解。因此,通常将 beta 估算值指数化,将结果转化为几率比 (OR),从而简化结果的解释。OR 表示在特定事件发生的情况下发生某种结果的几率与在没有该事件的情况下发生该结果的几率之比。如果 OR 大于 1,则该事件与生成特定结果的更高几率相关。相反,如果 OR 小于 1,则该事件与该结果发生的较低几率相关。根据上述等式,几率比的解释可以表示为:x 每增加 c 个单位,成功的几率就会变化 exp(cB_1) 倍。举个例子,假设我们要估计泰坦尼克号上的生存几率,且这个人是男性,男性的几率比是 0.0810。我们可以把几率比解释为,与女性相比,在所有其他变量不变的情况下,男性的存活几率降低了 0.0810 倍。

线性回归和逻辑回归都是数据科学中最流行的模型,而 Python 和 R 等开源工具可以使它们的计算变得快速而简单。

线性回归模型 用于识别连续因变量与一个或多个自变量之间的关系。当只有一个自变量和一个因变量时,这称为简单线性回归,但若自变量的数量增加,则为多元线性回归。对于每种类型的线性回归,都试图通过一组数据点绘制一条最佳拟合线,拟合线通常使用最小二乘法计算。

与线性回归类似,逻辑回归也用于估计因变量与一个或多个自变量之间的关系,但它用于对分类变量比照连续变量进行预测。分类变量可以是真或假、是或否、1 或 0 等等。计量单位也与线性回归不同,因为线性回归产生的是概率,而 logit 函数将 S 曲线转换为直线。

虽然这两个模型都用于回归分析,以预测未来结果,但线性回归通常更容易理解。线性回归也不需要那么大的样本量,而逻辑回归需要足够的样本来表示所有响应类别的值。如果没有较大的代表性样本,该模型可能没有足够的统计功效来检测显著效应。

逻辑回归模型有三种类型,它们是根据分类响应定义的。

  • 二元逻辑回归: 在这种方法中,反应或因变量的性质是二分的,即只有两种可能的结果(如 0 或 1)。其一些常见用途包括预测电子邮件是否为垃圾邮件,或者肿瘤是否为恶性。在逻辑回归中,这是最常用的方法,更一般地说,它是二元分类最常见的分类器之一。
  • 多元逻辑回归: 在这种逻辑回归模型中,因变量有三个或更多可能的结果,但这些值没有特定的顺序。例如,电影制片厂希望预测电影观众可能会看哪种类型的电影,从而更有效地推销电影。多元逻辑回归模型可以帮助制片厂确定一个人的年龄、性别和约会状态对他们喜欢的电影类型的影响强度。这样,制片厂就可以针对可能去看电影的人群开展特定电影的广告宣传活动。
  • 有序逻辑回归: 当响应变量有三种或三种以上可能的结果,且这些值确实有一个确定的顺序时,就可以使用这种逻辑回归模型。有序响应的示例包括从 A 到 F 的评分量表,或从 1 到 5 的评分量表。

机器学习 中,逻辑回归属于 监督式机器学习 模型家族。它也被认为是一种判别模型,这意味着它试图分类(或类别)。与生成算法(如 朴素贝叶斯 )不同,顾名思义,它不能生成它试图预测的类的信息,例如图像(例如猫的图片)。

前面,我们提到了逻辑回归如何最大化对数似然函数以确定模型的 beta 系数。在机器学习的背景下这种情况略有变化。在机器学习中,负对数似然用作损失函数,使用 梯度下降 过程来找到全局最大值。这只是得出上述估算结果的另一种方法。

逻辑回归也容易 出现过拟合 ,尤其是当模型中存在大量预测变量时。正则化通常用于在模型遭受高维时惩罚大参数系数。

Scikit-learn (ibm.com 外部链接)为了解有关逻辑回归机器学习模型的更多信息提供了有价值的文档。

逻辑回归通常用于预测和分类问题。其中一些用例包括:

  • 欺诈检测: 逻辑回归模型可以帮助团队识别数据异常,从而预测欺诈行为。某些行为或特征可能与欺诈活动具有更高的关联性,这对于银行和其他金融机构保护其客户特别有帮助。基于 SaaS 的公司也开始采用这些做法,在围绕业务绩效进行数据分析时消除数据集中的虚假用户帐户。
  • 疾病预测: 在医学领域,这种分析方法可用于预测特定人群患病的可能性。医疗保健组织可以为对特定疾病表现出较高倾向的个人建立预防性护理。
  • 流失预测 :在企业的不同职能部门中,特定行为可能是人员流失的征兆。例如,人力资源和管理团队可能想知道公司内部是否有存在离开组织风险的高绩效人员;这种类型的洞察力可以促成对话,了解公司内部的问题领域,例如文化或薪酬。另外,销售机构可能希望了解哪些客户有可能将业务转移到其他地方。这可以促使团队制定保留策略以避免收入损失。