NLP 模型 - 人工语言天才的快速发展

几年来,人工智能一直在撼动信息技术和媒体,这主要归功于该技术的一个特定子领域的发展:自然语言处理(NLP)正在彻底改变人类和机器的交流方式。以人工智能为基础生成连贯的文本只是其中一种超乎想象的可能性,就连专家也才刚刚开始掌握。最重要的 NLP 模型年表提供了有关自动语言处理的过去、现在和未来的信息。

什么是 NLP 模型?

NLP 意味着 自然语言处理 它描述了处理自然语言的人工智能技术。常见的应用领域包括文本的分析、解释、总结、翻译和生成。然而,口语输入的算法处理也正成为人工智能这一子领域中日益重要的学科。由于人类语言充满了不规则性、模糊性以及幽默和情感影响,因此,复杂的人工智能模型对于 NLP 来说是必不可少的,即所谓的 NLP 模型,然而,这些模型仍在迅速接近其极限。 边界 碰撞。

NLP 模型是相应人工智能系统或应用的核心。它们通常基于人工神经网络。这些网络由连接的输入和输出节点(神经元)组成,可以用数学方法描述为递归函数。通过网络传输输入信号,可以使用大量文本对现代 NLP 模型进行预训练。随后针对特定任务对神经元进行的重新调整称为微调。在这个过程中,要使用与新任务类型的细微差别相对应的较小数据集。现在可以解决一系列的问题。

简单的 nlp 神经网络模型
神经网络的简化表示法

自然语言处理如何工作?

人类语言的多样性决定了让算法理解人类语言的方法也是多种多样的。以下是几种特别相关的策略:

  1. 句子分段

    通过将句子分割成更小的片段,可以更容易地对句子的各个部分进行分类。这使得句子可以用数学方法表示,算法也能更好地捕捉相应的语境。

  2. 语法分析

    通过观察单词的句法功能和关系(如主语、宾语、谓语),可以对其含义得出结论。在训练数据中正确分配关系是基础。相应的常见 NLP 模型是 Word2vec.

  3. 语义分析:

    同样,同义词或反义词等实体和语义关系也能提供确切词义的线索。

  4. 情感分析:

    通过 "负面"、"正面 "或 "中性 "等分类,可以做出有意义的决定或采取有意义的行动。例如,这在分析客户反馈时非常有用。

这里使用的具体技术包括,例如,矢量化、解析、分类器或 词义消歧.通常情况下,单靠单独的方法并不能完全理解文本。因此,在很多情况下,我们需要将这些方法结合起来--或者通过几种方法,或者通过特别通用的 NLP 模型。

最重要的 NLP 模型年表

自然语言处理技术实际上起源于 20 世纪 50 年代:在乔治敦大学与 IBM 合作进行的一项实验中,研究人员成功地将 60 多个俄语句子机器翻译成英语。此后,这项新技术在很长一段时间内都没有达到预期目标。20 世纪 90 年代,与机器学习算法的联系,如 决策树 但仅限于个别任务。NLP 模型直到最近几年才真正声名鹊起。这是为什么呢?

变形金刚的诞生

Transformers 是一种特殊形式的 NLP 模型,其特殊架构由谷歌在 2017 年首次推出。它基于一个 嵌入-用于将输入序列矢量化的 "层 "以及连接在 "层 "后面的编码器和解码器。所谓的注意力模块也发挥着特别重要的作用(参见论文标题" ")。关注就是一切").这样就可以计算输入单位之间的相关性,从而有助于确定词义关系和上下文。

这种注意机制基于人类语言感知的无意识过程,通过这种过程,单词在句子意义中被赋予特殊的权重,无论其顺序如何。这使得变形金刚优于纯粹的顺序操作模式,如 LSTMSeq2seq 卓越。与之前的嵌入模型(如 Word2vec)相比,情况也差不多。转换器的特别之处在于,由于其架构的多样性,它们可以接管各种单独的 NLP 模型的任务,甚至在每种情况下都能超越它们。

变压器语言模型架构
变压器结构。资料来源 关注就是一切

ELMo

自然语言处理 2018 年的下一个突破还不是转换器的代表,但却影响了相应候选者的发展。来自语言模型的嵌入(ELMo)使用单词表示法,并考虑到句法和语义以及各种上下文变化等复杂因素。语言模型从周围的词语中确定这些因素,因此对语言的微妙之处特别敏感。此外,ELMo 还使用超过 10 亿个单词进行广泛的预训练,因此很快就成为许多 NLP 任务的最先进技术。

建筑

  • 卷积神经网络(CNN)
  • 双向语言模型由两层组成
  • 串联的 LSTM 模块
  • 9 360 万个参数

技能 翻译、文本摘要、回答问题、情绪分析。

GPT-1

2018 年,该项目中的第一个项目 生成式预训练变换器 OpenAI 在专业领域引起了广泛关注。作为对谷歌提出的 Transformer 架构的直接回应,这一概念被扩展到包括生成式预训练。与以往的做法不同,NLP 模型要经过 监督学习程序。训练集包括 11000 多本书的文本。这使 GPT 能够理解更长的上下文,并便于生成自己的文本段落。与早期的语言模型相比,这一功能是迄今为止最大的创新。GPT-1 是通过 Transformer 实现前所未有的 NLP 性能竞赛的起点信号。

建筑

  • 变压器解码器型号
  • 1.17 亿个参数
  • 12 层 
  • 省略谷歌提出的编码器部分

技能 生成并完成连贯的文本、翻译、回答问题。

伯特

当然,谷歌也不得不在同一年推出了自己的变压器模型:BERT(来自变压器的双向编码器表征)采用双向训练的方法,因此与片面的序列运行相比,可以更深入地理解上下文。在这里,ELMo 对变压器发展的影响是显而易见的。为了使这种方法完全适用于其他 NLP 模型,研究人员还引入了一种名为 屏蔽语言建模(MLM) 前。因此,BERT 建立了一整套功能特别强大的语言模型,这些模型甚至已在谷歌搜索中得到应用。 

建筑 

  • 变压器编码器型号
  • 附加分类层(用于多层分层法)
  • BERTbase:12 层,1.1 亿个参数
  • 大型 BERT:24 层,3.4 亿个参数

技能 捕捉长语境、总结和生成文本、单词预测。

GPT-4

2023 年,OpenAI 回顾了一系列 GPT 模型,这些模型也通过 ChatGPT 向公众开放。这些模型在复杂度、预训练所用文本数量以及最终在各种 NLP 任务中的表现方面都超越了前辈。GPT-3 已经从 570GB 的文本中进行了预训练,可以使用 1750 亿个参数。GPT-4 代表着进一步的显著提高,但其不同之处在于它还能处理图像。从最初的纯文本机器人发展到现在的大型多模态模型,变压器的功能得到了增强。另一方面,生成广泛、连贯和绝对令人信服的文本早已成为理所当然的事情。

建筑 到目前为止,OpenAI 一直对语言模型的确切结构保密--这可能是因为它可以被复制,因为专家们 迪伦-帕特尔和杰拉尔德-黄 分析。据估计,GPT-4 在 120 层中拥有约 1.6 万亿个参数,是 GPT-3 的 10 倍。

技能 文本分析、总结和翻译文本、在几秒钟内生成连贯的文本、类人反应、生成代码、根据草图创建网站、分析图形、回答有关图像的问题。

GPT-4 和 GPT-3.5 在 NLP 任务中的表现
GPT-4 和 GPT-3.5 在不同 NLP 任务中的性能比较。来源:OpenAI

PaLM 2

自 2023 年 5 月起,谷歌的文本机器人 Bard 不再基于大型语言模型 LaMDA,而是基于 PaLM 2。这个最先进的模型配备了大量新功能,包括编码、谷歌工作区支持和逻辑推理。使用的训练集包括来自科学论文和网站的大量文本。此外,还改进了多语言支持,现在包括 100 多种语言。根据终端设备的不同,PaLM 2 有四种不同的尺寸。总之,很明显,为了确保全面的使用,谷歌将重点放在了尽可能适合日常使用的实现上。因此,NLP 模型已经达到了普遍适用性的中心。

建筑 变压器,否则鲜为人知。与前代产品的 5400 亿个参数相比,可能会有大幅提升。

技能 更多 在大多数 NLP 任务、编程、多语言、逻辑、Google 实现方面都有所改进。

结论与展望

多年来,自然语言处理一直是最重要的人工智能技术之一,因为它为自动语言处理提供了新的可能性。这尤其适用于文本的生成和翻译。2017 年,谷歌提出了 Transformer 架构,在这一方向上取得了极其重要的突破,该架构很快在技术上成功实现了与 ELMo 双向方法相关的 GPT-1 和 BERT 等语言模型。此外,无监督学习的使用有助于后续模型的训练范围、复杂性和性能呈指数级增长。由于其附加值越来越高,培训成本往往只起到辅助作用。因此,这些趋势很有可能继续下去。

应用于语言模型的长期技术

进一步的发展还侧重于消除语言模型的错误和弱点。例如,在时效性、逻辑和运算方面。解决某些问题的可能办法是自动使用外部应用程序,例如通过元语言 工具成型器.除了越来越适合日常使用的应用外,更多专业领域的应用也是可以预见的。例如,Med-PaLM 2 已经开始进行医疗测试。在可预见的未来,变压器仍将是技术基础。不过,不排除在某个时候,变压器也会让位于新型 NLP 模型。


如果您想进一步了解自然语言处理技术以及该技术为企业带来的附加值,请使用 联系表格.我们的专家期待着交流。

"
"
Tim Filzinger 的头像

最新文章