逻辑回归

逻辑回归:用少量数学知识进行简单解释

Tim Filzinger

当涉及到复杂的机器学习模型时,人们很快就会达到可解释性的极限。在这种情况下,很难解释为什么会做出特定的决定或预测。逻辑回归是一种简单的替代方法,可用来统计变量之间可能存在的关系。这使其成为解释人工智能决策和进行独立预测的有用工具。

什么是逻辑回归?

逻辑回归是一种统计分析技术,用于处理一个或多个自变量与二元因变量之间的关系。因此,它适用于确定事件可能结果的概率。例如,这可以是一个简单的 "是"/"否 "决定,也可以是某种情况的发生或不发生。这类变量也被称为 "二分变量"。自变量--也就是分析关系的影响变量--是数字或连续标度的。因此,必须将分类属性转换为二元属性 虚拟变量 可以分解。关于各个特征类型的更详细解释,请参阅本节。 深度挖掘.

逻辑回归是回归分析的一个特例,它也可以研究其他类型的变量。此外,还有序数和多项式扩展,使预测更具灵活性。具体来说,它允许对等级或多个类别进行预测。不过,通常情况下,逻辑回归指的是对二元目标变量的调查。此类程序的通用术语也是 对数模型.它们使用相应的对数函数,并利用所谓的几率概念。赔率描述的是事件发生的概率与反概率之比。另一个基础是最大似然估计 (MLE),用于估计合适的几率。

可能的考试举例

  • 根据以往的购买情况,做出某种购买决定的概率有多高?
  • 折扣代码能否对决策产生积极影响?
  • 上市公司之间的企业收购迫在眉睫。收购公司的股价会上涨还是下跌?
  • 具有某些特征的人是否值得信任?
  • 明天纽约会下雨吗?
降雨概率
降雨概率可用逻辑回归法模拟。

尽管其中一些二元问题同样可以用其他方法解决,但它们为二元概率建模的情况提供了启示。逻辑回归的特别之处在于,除了 "是 "或 "否 "的答案外,它还考虑了该答案的置信度。 决定 已审查。

逻辑回归是如何运作的?

原则上,逻辑回归通过评估历史数据来研究自变量对因变量的影响。与线性回归一样,它假定存在线性关系,但因变量的目标值被转换为介于 0 和 1 之间的值。这是通过使用 logit 函数来实现的,从而产生相应的事件概率。由此产生的函数曲线可用于映射现有的数据库,该数据库用于预测。

逻辑回归的对数函数
逻辑回归的 logit 函数
f(x) 与因变量或其概率相对应,x 与自变量相对应
e = 优勒数,自然对数的底数

从图形上看是这样的

逻辑回归图
逻辑回归的函数曲线

在逻辑回归典型的 s 型曲线中,我们可以看到 0 和 1 之间的值是如何输出的,而与输入无关。这种方法的最大优点是可解释性强,而且可以估算出错误概率。例如,如果 f(x) 的值假设为 0.51,则事件 1 的可能性更大,但稍有偏差就会改变决策。因此,可以适当谨慎地对待这一结果。因此,逻辑回归非常适合用于分类--与线性回归等不同,线性回归只是在案例之间进行插值,因此只有最终的决定才是可见的。

赔率的作用

赔率又称几率比率,对逻辑回归的实用性和可解释性做出了重要贡献。作为概率的比率,它们也被称为几率概率,描述变量之间的效应强度。因此,在使用 SPSS 等统计程序进行逻辑回归时,赔率通常与标准误差和误差概率一起作为附加输出生成。

几率 > 1 意味着事件发生的概率高于不发生的概率。

赔率 = 1 意味着机会均等。

几率 < 1 意味着缺席的可能性更大。

这也让我们能够模拟自变量的轻微增加对事件发生概率的增加程度--例如,寿命每增加一年,患病风险就会增加多少。

对机器学习的意义

与许多其他统计原理一样,逻辑回归也适用于获取算法知识。这被称为监督 机器学习 从判别模型的意义上讲,逻辑回归分析也是一种判别模型。作为分类问题的一种解决方法,逻辑回归分析也与其他方法竞争,例如 Naive Bayes 分类器不过,它也是生成式的。与深度学习相比,不仅透明度更高,而且对计算的影响也更大。如果只是高度机械地进行计算,则几乎无法进行任何更改或观察。

社会科学家倾向于在统计程序的帮助下研究系数,以便找到解释,而在经济学中,他们主要试图预测未知的数据点。虽然实际计算能力是由算法完成的,但分析师和研究人员必须事先做大量工作:必须收集历史训练数据,并通过所谓的 "训练 "进行处理。 特色工程 将其转化为合适的变量形式。一旦创建了合适的训练集,就可以快速开始回归分析。除独立预测外,逻辑回归还可作为解释技术的一部分应用于复杂模型。这两种方法都有相应的优势:

手术的优点

  • 可解释性:除了 logit 函数产生的概率之外,诸如几率等系数也描述了变量之间的效应强度。还可以计算误差概率。然而,在复杂的程序和包含数十个参数的人工智能模型中,决策往往像一个 "黑箱"。逻辑回归可以通过显示结构中各个变量之间的确切关系来揭示这一点。
  • 简单性:由于基于数据的洞察速度快,逻辑回归可以作为一个简单的基线模型,直到相应的更复杂、更精确的模型建立起来。相比之下,计算和数据要求也较低,但后者包括对变量的充分表示。在这方面,线性回归更为简单,但所提供的数值意义却相应较小。
  • 稳健性:复杂的模型往往会过度解释少量的训练数据;这就是所谓的过度拟合。尽管新数据因其时事性而具有很高的信息价值,但对它们的重视程度却太低。另一方面,逻辑回归总是会根据所有可用的值做出统计上合理的陈述。因此,面对外生变化,逻辑回归更为稳健,但如果变量过多,也容易出现偏差。

应用的领域

  • 医学: 逻辑回归特别适用于确定疾病发生的风险因素。这可以很容易地编码为二分因变量。自变量可以是饮食、生活方式、年龄或性别等。
  • 社会科学:为了解释社会和社会发展,科学家通常会研究不同的社会文化和人口因素,这些因素因其特点而非常适合逻辑回归。例如,可以测量社会出身对教育或职业的影响。此外,还使用其他各种类型的回归分析。
  • 金融部门在商业领域,通过逻辑回归分析获得有价值见解的机会数不胜数。金融行业就是一个很好的例子,因为该行业经常需要对风险进行估计。例如,贷款人可以确定违约发生的可能性有多大。此外,还可以根据各种特征将某些活动归类为可疑活动。
逻辑回归可以发现洗钱行为
例如,逻辑回归可以发现洗钱行为。

总结

逻辑回归的简单性、稳健性和高度可解释性使其成为一种通用的分析技术。利用 logit 函数,它可以根据历史数据计算二元目标变量的概率。通过使用不同的系数,这种形式的回归分析还可以详细了解调查关系的效应大小。因此,作为一种替代或基准模型,它比复杂的算法更具透明度。不过,从长远来看,这些算法考虑的参数要多得多,因此能提供更精确的结果。

关于Konfuzio

在复杂的机器学习领域,逻辑回归是一种必不可少的方法,它能为数据分析带来清晰度和精确度。在您开始在项目中使用这些或其他统计技术之前,我们邀请您利用我们专家的专业知识和经验。我们的专家非常乐意为您的项目出谋划策,以最佳方式实现您的目标。

    关于我

    更多精彩文章

    桌子上的笔记本和垫子,笔记本屏幕上的代码

    Ephesoft替代方案:软件检查中的前5名供应商

    您在寻找 Ephesoft 的替代产品吗?Ephesoft是一款IDP软件,通过它您可以优化您的数据处理...

    阅读故事
    有收据的费用估价 OCR

    收据OCR:扫描并以数字方式处理收据

    在智能软件的帮助下,收据可以自动读取并进行数字处理。有了 Konfuzio 的文本识别功能,您就可以将收据现代化...

    阅读故事

    ZBar:文档 AI - 高效提取条形码

    在文档处理和数据管理领域,快速准确地解码条形码的能力发挥着至关重要的作用....。

    阅读故事
    箭头向上