Naive Bayes:通过测量进行概率分类

Tim Filzinger

Naive Bayes允许使用数据来训练AI模型。相应的算法通过关注某些特征将对象分配到不同的类别。一个基本的概率原理--贝叶斯定理--有助于确定最可能的类别。通过以训练数据的形式提供正确的分配,可以实现高预测精度。这使得Naive Bayes成为一种易于使用和流行的机器学习技术。

什么是Naive Bayes?

Naive Bayes是一种概率分类方法,它使用了 贝叶斯定理 在各种属性的基础上确定物体最可能属于某个已知类别。这一原则可以应用于 AI模型 以Naive Bayes分类器的形式,在算法上对文本文件进行区分,例如根据它们包含的单词。给予算法关于某类成员的信息的属性或特征被称为特征。这些变量可以是连续的、离散的、分类的或二进制的,取决于输入数据的类型。关于这个主题的深入研究和更详细的定义可以在以下网站找到 这里.

"天真 "是这个过程,因为它将统计上的独立性归于特征。它们也都应该对最终的分类做出同样的贡献。贝叶斯定理,也被称为基础定理,是由数学家托马斯-贝叶斯在18世纪建立的。它描述了一个计算条件概率的公式。也就是说,它决定了如果事件A已经成为历史,事件B发生的可能性有多大。在数学术语中,它看起来像这样:

贝叶斯定理

这里P(A|B)是条件概率,P(A)是A发生的概率,P(B)是B发生的概率。这个简单的基本原则允许,可以说是结论的逻辑倒置,也叫逆向归纳。

贝叶斯定理的例子

有人收到冠状病毒的快速检测结果为阳性。现在你想知道这个人真正得病的可能性有多大。P(A)是检测结果为阳性的概率,P(B)是实际患病的概率。P(A|B)最初是未知的,但P(B|A),即患有该疾病的人得到阳性测试的可能性有多大,可以用现有数据轻松确定--就像P(A)和P(B)。通过简单地代入定理,最终可以得到这个例子中存在疾病的条件概率。对于一个单一的特征,这个原理就这样被快速解释了。对于更多的特征和类别,它很快就会变得更加复杂,这就是为什么人们喜欢让算法来做这些工作。

电晕测试

Naive Bayes对机器学习有什么作用?

为了让人工智能模型提供可靠的结果,基本的统计学原理经常在大量训练数据的基础上被应用。除了回归或聚类,这也适用于Naive Bayes。相应的算法被称为Naive Bayes分类器,当涉及到对象,特别是文本的自动分类时,往往是首选。它们的用途非常广泛:无论是二进制类别,如上面的例子,还是文本的分类。 文本分类其中每个词的出现是一个单一的特征。原则上,Naive Bayes是可扩展的。具有任意数量特征的对象可以被划分为任意数量的类。对于每个特征和类别的组合,算法使用贝叶斯定理计算条件概率P(A|B),并将每个对象的所有特征的结果相乘。最终,该算法选择具有最高结果积的类别。

由于决策 "只是 "概率性预测,分类器需要 训练数据特别是为了能够尽可能准确地估计反转概率P(B|A)。数据包括对象对相应类别的正确分配。从逻辑上讲,算法要考虑的特征和类别越多,它需要的特征和类别就越多。除了准确性,精确度和召回率也是重要的指标。后者描述了正确正值的比例。另一方面,F1分数揭示了这两个质量标准的质量,但没有提供关于哪里需要优化的信息。

优势

Naive Bayes分类器因其简单性而令人印象深刻。它们可以被快速训练和使用,但仍然可以应用于复杂的案例。同时,它们提供相对准确的结果。如果真的给出了各个特征独立的基本假设,这一点尤其正确。在这种情况下,Naive Bayes甚至击败了竞争对手,如逻辑回归,其参数也必须通过优化来确定。

劣势

在实践中,所述的独立性往往不是对每一个特征都给予的,这在某些情况下削弱了Naive Bayes方法。此外,它需要相对大量的训练数据,这些数据必须充分覆盖每个类别。对于高度复杂的应用,Naive Bayes往往输给了神经网络,但至少可以作为一个简单的基线模型。

3 分类器的类型

根据特征和类别的数量或特点,使用不同的分类器变体,它们主要在数学方法上有所不同。特别受欢迎的有:

多项式奈何贝叶斯

这个变体特别适用于整数输入数据,并假定所有变量都是二项分布。这描述了重复伯努利实验的积极结果的总数。对于大量的数字,它接近高斯分布,为此可以使用单独的分类器类型。多项式表达法经常被用于文档和文本分类,它计算单个词的频率。

钱币伯努利
最著名的伯努利实验是抛掷硬币

伯努利-奈夫贝叶斯

......与之前的类型非常相似,但在输入数据的表示上有所不同,这里的数据被理解为二进制分布。该变体也经常被用来对文本进行分类,但相应地只区分单词的出现或不出现。后者被列为一个单独的特征--与多叉贝叶斯截然不同,在多叉贝叶斯中,频率数为0会导致零概率方面的问题。

高斯奈夫贝叶斯

这里我们有上面已经提到的变体,它可以适当地用于大数以及十进制数字。最主要的是输入变量遵循正态分布,因此可以用高斯或钟形曲线来描述。在实践中,大量的情况往往是这样的。

高斯正态分布

Naive Bayes的优化技术

没有一个模型是完美的,所以Naive Bayes也有它的弱点,因为即使在其不同的变体中,它也常常不能最佳地适应计划的使用案例。为了解决出现的问题,并能够更具体地使用该算法,或者更全面地用于机器学习,各种优化和组合技术因此被应用。这里有三个重要的技术:

抚平

...解决了已经提到的概率为零的问题,这个问题经常发生在Naive Bayes的分类变体中。因此,在计算比例时,可以在分子和分母中加入一个小和,以实现平滑。通过这种方式,该算法学会了更好地处理以前 "未见过的 "类别。如果和值是+1,就可以说是拉普拉斯平滑,如果和值较小,就说是利德斯通平滑。

特色工程

......并没有优化算法本身,但却导致了输入特征质量的大幅提高,而奈何贝叶斯在很大程度上依赖于此。为此,特征被转换、提取、缩放,从而使分类器 "容易接受"。这最终导致了准确性的提高和错误的最小化。

集合方法

Naive Bayes可以与其他分类器结合,以优化整体性能。在所谓的堆叠中,诸如逻辑回归等方法被加入。然而,训练和分类是由各自的技术分别进行的,直到选出最好的结果并将所做的分类结合起来。用各种随机选择的训练数据子集训练不同的Naive Bayes分类器被称为叠加。 装袋 并导致较低的偏差。

实际应用的可能性

根据它们的多功能性,Naive Bayes分类器是人工智能锦囊中的一个热门选择。毕竟,对不同类别的分类也是各种流程的重要必要条件--但对于对各种类型的文本进行分类,肯定起着最大的作用。下面是两个具体的用例:

垃圾邮件过滤器

可能是文本分类中最著名的案例。垃圾邮件可以通过频繁出现的某些词,如 "中奖"、"优惠 "或 "免费",也可以通过某些拼写或链接来轻易识别。Naive Bayes分类器只需要包含垃圾邮件和合法邮件的训练数据。然后,它可以利用命名特征的频率来计算存在垃圾邮件的条件概率。一个类似的程序也被用于几乎所有其他形式的文本分类,比如说 自然语言处理 (NLP)的应用。

垃圾邮件
"垃圾邮件 "一词最初来自于 "香料火腿",通过Monty Python的一个小品才获得了大规模重复的意义。

文件管理

通过结合一些最先进的人工智能技术,Konfuzio确保了一个全面的、完全自动化的 文件管理.当然,如果没有精确拟合的分类,这几乎是不可能的,在这种情况下,也可以使用Naive Bayes。

总结

Naive Bayes是一种易于使用和流行的机器学习技术,它使用概率分类方法,根据对象的特征将其分配到不同的类别。虽然有一些缺点,如假设特征独立,但奈何贝叶斯仍然提供了很高的预测精度,而且用途广泛。有三种主要的分类器:多项式、伯努利式和高斯式奈何贝叶斯,可根据不同的应用来使用它们。平滑化、特征工程和集合方法等优化技术可以进一步提高Naive Bayes的性能。实际用例包括从垃圾邮件过滤到文件管理,而且奈何贝叶斯经常与其他人工智能技术结合使用。

关于我

0条评论

Schreibe einen Kommentar

更多精彩文章

用于智能文本处理的PDF到JSON转换

许多技术现在已成为日常生活的自然组成部分。视频是自动润色的。网上商店在我们购买之前就知道我们在买什么...

阅读故事
mlops标题

MLOps:优化ML工作流程的DevOps

在今天这个数据驱动的世界里,机器学习为公司优化流程、决策和创新开辟了巨大的潜力。 但是...

阅读故事
DocuWare 替代软件

关于 DocuWare 替代品和作为智能插件的 Konfuzio 的所有信息

您是否正在寻找 DocuWare 补充软件或合适的替代品?那么这篇文章就是您的最佳选择。流畅的文档管理...

阅读故事

    箭头向上
    导航