特征工程机器学习

特征工程:从原始数据到训练集

Tim Filzinger

特征工程可以用来为最有效的人工智能模型的训练准备数据。使用各种技术来处理变量(特征)的创建和修改。其目的是为计划中的学习程序创建个别合适的数据结构。因此,特征工程是机器学习中最重要的过程之一,对相应算法的质量和准确性有决定性的贡献。

什么是特征工程?

特征工程是旨在为人工智能模型准备训练数据的技术的一个通用术语。其目的是创建一个变量的数学结构,使算法更容易处理数据并实现高效的学习过程。数据是文本、图像还是任何其他形式并不重要。只是根据数据类型和人工智能模型的性质来调整实际方法和具体技术。广义上讲,特征工程涉及创建、选择和修改适当的变量,在这里称为特征。它们的性质、结构和对计划中的模型的有用性对其质量和项目的成功有很大贡献。机器学习的许多过程和子领域在很大程度上是自动化的。但特征工程却不是这样,因为这个过程需要高度的专业知识和创造力。出于这个原因,有经验的工程师通常会处理它。 数据工程师 和科学家。

数据工程

深入研究的特点

在机器学习的背景下,特征是指从输入数据中提取并用于预测结果或目标变量的代表性属性、特点或变量。因此,特征是机器学习的一个重要组成部分,并作为学习算法的输入。它们以各种形式出现: 连续的 描述了非无限的、度量的值。 谨慎的 是数字但可计算的值。A 绝对的 特点是包括不必进行排名的类别。另一种类型是 二进制 特点。最终,一个物体的几乎所有属性都可以用这种方式进行数学编码,并使之成为可测量的算法。

例如,为了确定一辆汽车的价格,人们可以看一下诸如品牌、型号、制造年份、颜色、性能和设备等特征。如上所述,它们都可以用数学来表示,并可以提供关于汽车价值的算法信息。决定性的因素是,这些确定价格所必需的特征已经被确定和编码。然而,在实践中,学习算法通常要处理数量大得多的特征和特性。

模型选择

为什么特征工程对机器学习很重要?

机器学习在很大程度上包括应用统计学和计算机科学。 概率预测.由于这个原因,在进行学习程序之前,必须将信息放到一个数学上可理解的形式中。只有这样,数据的信息内容才会在算法上变得可读。特征工程包括许多必要的处理步骤,以通过特征创建适当的结构。这在很大程度上取决于算法要学习和以后执行的内容。以汽车的价格确定为例,很容易看出哪些特征是必要的。另一方面,如果需要复杂的机器学习模型,例如,图像或 文本识别确定适当的特征不再那么容易,最重要的是:对数据进行相应的转换。这正是诸如估算、缩放或离散化等技术的用武之地。这些技术的选择和实施需要大量的敏感性和对每个案例的个别处理。

不仅缺少重要的、结构良好的特征,而且包含多余的信息也会严重削弱一个模型。另一方面,算法的一些缺点可以通过精确的特征工程来弥补。在预测模型应该做出概率决策的情况下,这种效果尤其大--例如,对于 种类 的对象。在这种情况下,我们通常与通过特征工程手段创建的结果和预测变量一起工作。

特征工程的3个步骤

虽然特征工程包含了许多不同的技术,但这个过程通常可以分为三个阶段,即::

  1. 数据准备

    在大多数情况下,原始数据最初不适合用于创建特征,因为它往往来自不同的来源,没有统一的格式。然而,这正是机器学习通常需要的。因此,首先要对数据进行合并、格式化和标准化。相应的技术包括预处理、清洗、剖析、转换和验证数据。由于这个过程往往已经揭示了相关的信息,如某些关键词,所以也已经可以提取出最初的特征,尽管这些通常需要进一步处理。

  2. 探索性 数据分析

    下一步是更好地理解数据,并确定重要的关联,通过这些关联可以创建进一步的有意义的特征。为了做到这一点,数据科学家使用广泛的可视化工具,帮助他们确定最佳的统计方法和适当的技术来进一步处理数据。具体来说,这些数据通常以直方图、箱形图或散点图的形式准备,以便得出相应的假设。

  3. 基准测试

    在特征工程的这一阶段,重要的是为准确性和质量的指标设定标准,并将其应用于所有特征。这一步骤对机器学习模型的后期表现影响最大。首先,针对数据进行多次测试,进一步优化相关的特征和表达。这是通过选择特别相关的特征来实现的,也可以通过使用组合技术对其进行转换和重新创建。原则上,特征工程不仅在训练阶段之前进行,而且可以在任何时候再次用于优化模型。

数据选择

流行的技术

如前所述,绝大多数可称为特征工程的技术都涉及特征的提取、转换、选择和创建。下面是一些具体的例子:

归纳法

代入法是用来清理缺失值的,因为否则会出现零概率的问题,特别是在预测模型中。删除数据的相应部分是一个可能的解决方案,但会导致有价值信息的丢失。相反,缺失的分类值通常被最频繁的表达所取代。另一方面,对于数字缺口,人们会计算出特征的算术平均值。

分类编码

一个典型的特征转换案例。一般来说,对于算法来说,数值比分类数值更容易理解。出于这个原因,相应的表达式经常被重新编码为数字。通过所谓的一热编码,只使用零和一,而不丢失数据中的任何信息。然而,过于频繁地使用该技术会导致不自然的强相关特征。

模型数据工程

谨慎化

离散化可以用来将一个连续的特征转换成一个离散的特征。为了这个目的,数值通常被分类到所谓的bins中。通过将数值按大小递增的顺序划分为不同的区间来形成类别。然后这些可以被离散地描述。

缩放

当算法对某些数据的某些尺度过于敏感时,就会采用这种特征工程的方法。最小-最大缩放法将数值缩放到0和1之间的范围,从而使其正常化。另一方面,方差缩放的目的是为相应的特征创建一个平均值为0,方差为1的值。为此,从所有数据点中减去平均值,然后将结果除以分布的方差。这种技术可用于为各种数据创建任意的数值范围,而不丢失比率和重要信息--这是特征工程的一个重要的基本原则。

总结

对于精确和有针对性的机器学习,没有办法绕过特征工程。以特征的形式拥有正确的数据结构对机器学习来说太重要了。 培训 的人工智能模型可以被准备。所用技术的选择主要取决于算法的目标和计划功能。然而,通常来说,特征工程包括特征的提取、转换、选择和创建。这个粗略的过程可以分为数据准备、探索性数据分析和基准测试。特征工程的具体技术主要涉及数学重新编码,通过这些技术可以将每个特征放到适当的形式中进行算法处理。

关于我

更多精彩文章

DocuWare 替代软件

关于 DocuWare 替代品和作为智能插件的 Konfuzio 的所有信息

您是否正在寻找 DocuWare 补充软件或合适的替代品?那么本文就是您的最佳选择。顺畅的文档管理...

阅读故事
打开 eml 格式指南

打开 EML 文件 - 安全处理邮件格式

如今,商业环境中的数字通信几乎离不开电子邮件的收发。这涉及...

阅读故事

人工智能营销指南:使用案例、实例和工具

GAIO(生成式人工智能优化)最近展示了人工智能在市场营销中的重要性。GAIO 应对的挑战是企业如何优化...

阅读故事
箭头向上