作者都是各自领域经过审查的专家,并撰写他们有经验的主题. 我们所有的内容都经过同行评审,并由同一领域的Toptal专家验证.
瑙曼·穆斯塔法的头像

Nauman穆斯塔法

瑙曼目前是VisionX的高级深度学习工程师, 拥有为NLP和CV问题构建深度学习解决方案的专业知识.

以前在

VisionX
分享

大多数新的 深度学习 发布的模型, 尤其是在自然语言处理方面,非常非常大:它们的参数范围从数亿到 数百亿.

如果有足够好的架构, 模型越大,它的学习能力就越大. 因此,这些新模型具有巨大的学习能力和训练能力 非常非常大的数据集.

正因为如此,他们学习了他们所训练的数据集的整个分布. 可以说它们对这些数据集的压缩知识进行了编码. 这使得这些模型可以用于非常有趣的应用程序—最常见的是 转移学习. 迁移学习是对预先训练好的模型进行微调 自定义数据集/任务它需要的数据少得多,而且与从头开始训练相比,模型的收敛速度非常快.

预训练模型如何成为未来的算法

虽然预训练模型也用于计算机视觉, 本文将重点介绍它们在 自然语言处理 (NLP)域. 变压器结构 在这些模型中使用的是最常见和最强大的体系结构吗.

The 变压器结构 as presented in Google's 2017 paper, "Attention Is All You Need."

虽然 伯特 开始了NLP迁移学习的革命,我们将探讨 GPT-2T5 模型. 这些模型是预先训练好的——在特定的应用程序上对它们进行微调将产生更好的评估指标, 但我们将使用它们的开箱即用, i.e.,没有任何微调.

预训练的NLP模型:OpenAI的GPT-2

GPT-2在2019年发布时引起了相当大的争议. 既然是 非常擅长生成文本,它吸引了相当多的 媒体的关注 并提出了很多关于人工智能未来的问题.

GPT-2是在40gb文本数据上训练的 很大的模型 包含一个 大量的压缩知识 从互联网的横截面.

GPT-2有很多 潜在用例. 它可以用来预测一个句子的概率. 这反过来又可以用于文本自动更正. 接下来,可以直接使用单词预测 构建自动完成组件 用于编写代码的IDE(如Visual Studio Code或PyCharm)以及 一般文本写作. 我们将使用它来自动生成文本, 大量的文本语料库可以用于自然语言分析.

GPT-2基于文本输入生成建议. The input on the left is "AI took most of the jobs." The three outputs suggested on the right are "In fact, 这是该公司5月份的第一次招聘," "The only job that was not taken was that of," 和 "'When I was young, it was like being" without a closing quote mark.

文本生成

像GPT-2这样的预训练模型的能力 生成连贯的文本 非常令人印象深刻. 我们可以给它一个前缀文本,然后让它生成下一个单词、短语或句子.

一个示例用例是生成一个产品评论数据集,以查看哪种类型的单词通常用于正面评论和负面评论.

让我们来看一些例子, 从我们得到的开始如果我们从正的前缀开始, “真的很喜欢这部电影!”

示例1我喜欢这个角色在不断面临危险时的情绪, 以及他内心的恐惧是如何被这些事件慢慢克服的. Also loved that he is so focused on surviving; even for a while it felt like something out of 蝙蝠侠大战超人 was showing up every now again because you always knew your enemy would show up eventually anyways :) The ending theme really stuck with me too… I mean yeah they did have to…
示例2它做了我想做的事情,非常有趣. 演员阵容太棒了,在看过IMDB上的其他内容后,故事到目前为止还讲得通. 有暗示说,由于他们的“力量”(或缺乏力量),他们从远古时代就在一个地下城市里,但他们并没有真正告诉我们太多,我认为这更像是一个大谜团,而其他一些方面现在跟我在一起….应该是……

如你所见,这个词 审查 前缀中没有任何地方吗, 但由于大多数评论都是标题后面跟着评论的主体, 这迫使模型适应这种分布. 还要注意对的引用 蝙蝠侠大战超人.

让我们看另一个例子. 而不是电影评论, 我们将尝试使用否定前缀生成产品评论, 垃圾产品! 不要买.”

示例1请, 不要把它用作花园或草坪的肥料——如果被鱼和鸟摄入,会造成严重的水害. 使用时要小心,因为有机食品商店网上出售的宠物食品中可能含有农药,比如Petsmart这样太“好”的名字, 宠物市场 & 西夫韦.食物垃圾的毒性有多大? 废物产生的影响相当大——甚至足够……
示例2没人会再给你那种垃圾了. 帮你自己和你的公司一个忙,在购买之前清理一下,这样做无非是为了在将来节省一些钱或方便.1/2盎司瓶塑料食品储存包装+ 1包#1636370105702615 (P, 3ml) 7美元现在购买你可以在任何零售商店购买这些瓶子,但这里是如何获得…

再一次。, 前缀可以推断为产品评论的标题, 因此,模型开始按照该模式生成文本. GPT-2可以生成像这样的任何类型的文本.

A 谷歌Colab笔记本 已经准备好用于实验,就像“用变压器写”一样。 现场演示.

问题回答

是的, 因为GPT-2是在网上训练的, 它“知道”到2019年为止在网上发表的许多人类知识. 它也可以用于情境问题, 但我们必须遵循“问题:X”的明确格式, 回答:“然后让它尝试自动完成。. 但如果我们强迫模型回答我们的问题,它可能会输出一个相当模糊的答案. 以下是强迫它回答开放式问题以测试其知识的结果:

示例1问:谁发明了进化论?
答: 进化论最早是由查尔斯·达尔文于1859年提出的.
示例2问题:人类有多少颗牙齿?
答: 人类有21颗牙齿.

正如我们所看到的,预训练模型对第一个问题给出了非常详细的答案. 对于第二个,它尽了最大的努力,但它无法与谷歌搜索相比.

很明显,GPT-2具有巨大的潜力. 对其进行微调,可用于上述示例,精度更高. 但即使是我们评估的预训练GPT-2也没有那么糟糕.

预训练的NLP模型:谷歌的T5

谷歌的T5 是迄今为止最先进的自然语言模型之一吗. 一般来说,它是建立在以前关于Transformer模型的工作之上的. 与伯特和GPT-2不同的是,前者只有编码器块,而后者只有解码器块 这两个.

T5输入输出. 1) "translate English to German: That is good," becomes "Das ist gut." 2) "cola sentence: The course is jumping well," becomes "not acceptable." 3) "stsb sentence1: The rhino grazed on the grass. 一头犀牛在田野里吃草,“变成了”.8." 4) "summarize: state authorities dispatched emergency crews tuesday to survey the damage after an onslaught of severe weather in mississippi…" becomes "six people hospitalized after a storm in attala county."

在40gb的文本数据上训练GPT-2已经令人印象深刻了,但是 T5是在一个7tb的数据集上训练的. 尽管它被训练成, 非常多的迭代, 它不能浏览所有的文本. 虽然T5可以做到 文本生成 像GPT-2一样,我们将把它用于更有趣的业务用例.

摘要

让我们从一个简单的任务开始: 文本摘要. 对于那些 人工智能开发公司 如果你想开发一款总结新闻文章的应用,T5绝对适合你. 例如,给予 这篇文章 到T5,这里有三种不同的总结:

V1命运2的下一个赛季,从3月10日开始,将重新制作剑 . 他们将有能量补充用于重型攻击和防御 . 情人节活动“深红日”也在本月举行 .
V2Bungie透露,《欧博体育app下载》下一季将大幅重制刀剑 . 对于这一季的剧情,制片方基本上是含糊其辞 . 重新思考将使剑部分绕过敌人的盾牌 .
V3《欧博体育app下载》下一季将重制剑,让它们绕过敌人的盾牌 . 赛季从3月10日开始 . 你可以在情人节活动期间玩《欧博体育app下载》 .

正如我们所看到的,它在总结文章方面做得非常出色. 而且,每个摘要都是不同的.

使用预训练模型进行总结具有巨大的潜在应用. 一个有趣的用例可能是自动生成每篇文章的摘要,并将其放在只想要摘要的读者的开头. 它还可以更进一步 个性化每个用户的摘要. 例如, 如果一些用户的词汇表较小, 他们可以得到一份不那么复杂的单词选择摘要. 这是一个非常简单的例子,但它展示了该模型的强大功能.

另一个有趣的用例是在网站的SEO中使用这样的摘要. 虽然T5可以训练生成非常高质量的SEO自动, 使用摘要可能会有帮助, 无需重新训练模型.

阅读理解

T5也可用于 阅读理解, e.g.,回答给定背景下的问题. 这个应用程序有非常有趣的用例,我们将在后面看到. 让我们从几个例子开始:

问题谁发明了进化论?
上下文
(Encyclopædia大英百科全书)
在阿根廷发现的大型已灭绝哺乳动物的骨骼化石,以及在加拉帕戈斯群岛观察到的多种雀类,都被认为激发了达尔文对物种起源的兴趣. 1859年,他出版了《欧博体育app下载》, 建立进化论和进化论的论文, 最重要的是, 自然选择在决定其进程中的作用.
回答达尔文

书中没有明确提到达尔文发明了这个理论, 但该模型利用其现有知识和一些背景来得出正确的结论.

在一个非常小的背景下呢?

问题我们去了哪里??
上下文在我生日那天,我们决定去巴基斯坦的北部地区. 真的很有趣.
回答巴基斯坦北部地区

好吧,这很简单. 来个哲学问题怎么样?

问题生命的意义是什么?
上下文
(维基百科)
我们所理解的生命的意义来源于哲学和宗教的沉思, 以及对存在的科学探究, 社会关系, 意识, 和幸福. 还涉及许多其他问题, 比如象征意义, 本体, 价值, 目的, 道德, 善与恶, 自由意志, 神的存在:一个或多个神的存在, 上帝的概念, 灵魂, 还有来世. 科学贡献主要集中在描述有关宇宙的经验事实, 探索关于生命“如何”的背景和参数.
回答哲学的和宗教的沉思, 以及对存在的科学探究, 社会关系, 意识, 和幸福

虽然我们知道这个问题的答案很复杂, T5试图想出一个非常接近的办法, 明智的回答. 荣誉!

让我们更进一步. 让我们以前面提到的Engadget文章为背景来问几个问题.

问题这是怎么回事??
回答《欧博体育app下载》将大幅重做
问题我们什么时候可以期待这个更新?
回答3月10日

正如你所看到的,T5的上下文问题回答非常好. 一个商业用例可能是为网站构建一个上下文聊天机器人,回答与当前页面相关的查询.

另一个用例可能是从文档中搜索一些信息,例如.g.,问这样的问题:“使用公司的笔记本电脑做个人项目是否违反合同??使用法律文件作为上下文. 尽管T5有其局限性,但它非常适合这类任务.

读者可能会想, 为什么不为每个任务使用专门的模型呢? 这是一个很好的观点:与T5的预训练NLP模型相比,其准确性要高得多,专用模型的部署成本也要低得多. 但T5的美妙之处在于它是“一个模式来统治所有”.e.,你可以使用一个预训练模型 几乎适用于任何NLP任务. 另外,我们想要使用这些开箱即用的模型,而不需要再训练或微调. 所以对于开发者来说,创建一个总结不同文章的应用程序, 还有一个应用程序,可以根据上下文回答问题, 同样的T5型号可以做这两件事.

预训练模型:即将无处不在的深度学习模型

在本文中, 我们探索了预先训练的模型,以及如何在不同的业务用例中使用它们. 就像经典的排序算法一样,它几乎无处不在地用于排序问题, 这些预训练的模型将被用作标准算法. 很明显,我们所探索的只是 触及表面 这些模型可以做更多的事情.

预训练的深度学习模型,比如 StyleGAN-2DeepLabv3 以类似的方式, 计算机视觉的应用. 我希望你喜欢这篇文章,并期待在下面听到你的评论.

了解基本知识

  • 什么是预训练?

    预训练是数据科学家在非常大的数据集上训练模型架构的一种技术. 这将引入模型的先验知识,并有助于为新任务微调模型. 一个例子是在ImageNet上训练Resnet-50.

  • 什么是训练过的模型?

    训练模型是在数据集上训练的特定模型体系结构.

  • 什么是深度学习模型架构?

    每个深度学习模型都是使用一组以不同方式连接的基础层构建的. 这些层的连接创建了一个特定的模型体系结构. 示例架构有ResNet、GPT-2和StyleGAN.

  • 什么是深度学习层?

    深度学习层是一种数学运算,它将前一层的输出转换为下一层的输入. 通常与这些数学运算相关的数值参数是在训练中学习到的.

  • 深度学习模型的权重是多少?

    深度学习模型的权重是该模型与其每一层相关的所有参数值的列表.

就这一主题咨询作者或专家.
预约电话
瑙曼·穆斯塔法的头像
Nauman穆斯塔法

位于 巴基斯坦,伊斯兰堡

成员自 2019年10月10日

作者简介

瑙曼目前是VisionX的高级深度学习工程师, 拥有为NLP和CV问题构建深度学习解决方案的专业知识.

Toptal作者都是各自领域经过审查的专家,并撰写他们有经验的主题. 我们所有的内容都经过同行评审,并由同一领域的Toptal专家验证.

以前在

VisionX

世界级的文章,每周发一次.

订阅意味着同意我们的 隐私政策

世界级的文章,每周发一次.

订阅意味着同意我们的 隐私政策

Toptal开发者

加入总冠军® 社区.