人体艺术

葬送的芙莉莲 动漫 “是我创造了第一个LLM”!Kaggle前首席科学家一句话激发AI学术圈考古看成

七天探花 白虎

你的位置:人体艺术 > 七天探花 白虎 > 葬送的芙莉莲 动漫 “是我创造了第一个LLM”!Kaggle前首席科学家一句话激发AI学术圈考古看成


葬送的芙莉莲 动漫 “是我创造了第一个LLM”!Kaggle前首席科学家一句话激发AI学术圈考古看成

发布日期:2025-04-10 15:00    点击次数:156

葬送的芙莉莲 动漫 “是我创造了第一个LLM”!Kaggle前首席科学家一句话激发AI学术圈考古看成

论如安在时候圈争论中一句话噎到对方:葬送的芙莉莲 动漫

哥们,是我创造了第一个谎言语模子。

发言者 Jeremy Howard 为澳大利亚昆士兰大学名誉教学、曾任 Kaggle 首创总裁和首席科学家,现 answer.ai 与 fast.ai 首创东说念主,。

事情的缘由是有东说念主质疑他最近的模样 llms.txt 在匡助大模子爬取互联网信息上并没太大作用,从而激发了这段争论,赶紧引起世东说念主围不雅。

闻讯而来的"赛博考古学家们"一番验证之后,发现第一个谎言语模子这个说法还真有理有据:

2018 岁首,Jeremy Howard 发表的论文 ULMFiT,使用非监督预磨练 - 微调范式达到其时 NLP 领域的 SOTA。

以至 GPT-1 的一作 Alec Radford,在发表 GPT-1 时也公开承认过 ULMFiT 是灵感起首之一。

有东说念主搬出综述论文,指出从"遗传学"视角看,ULMFiT 是总共当代大模子"终末的共同祖宗"。

还有善事者软件工程师 Jonathon Belotti,迥殊写了一篇好意思满验证《谁才是第一个谎言语模子》

最初来先容一下 ULMFiT 这篇论文,入选 ACL 2018:

淡薄有用迁徙学习智商,可期骗于 NLP 领域的任何任务,并先容了微调话语模子的关节时候,在六个文分内类任务上的发达明显优于其时的 SOTA 智商,在大多数数据集上将失误率裁汰了 18-24%。此外,仅使用 100 个带标签的示例,它的性能就与在 100 倍以上数据上从新初始磨练的模子性能十分。

那么 ULMFit 算不算第一个谎言语模子呢?Jonathon Belotti 验证罢职这么的想路:

最初找一个公共都公认细目算谎言语模子的效能,果肉系列GPT-1 细目适应这个标准。

再从 GPT-1 和后续 GPT-2、GPT-3 中索要一个模子成为成为谎言语模子的标准:

最初如果一个话语模子,凭证输入接洽东说念主类书面话语的构成部分,不一定是单词,而是 token

中枢智商是自监督磨练,数据集是未标志的文本,与此前特定于任务的数据集有很大不同

模子的活动是接洽下一个 token

能适合新的任务:不需要架构修改,就有 few-shot 以至 one-shot 才略

通用性:不错先进的性能实行多样文本任务,包括分类、问答、领悟等

接下来分析 GPT-1 援用的几个热切模子:原版 Transformer,CoVe,ELMo 和 ULMFiT。

Transformer 诚然是当代主流大模子的架构基础,但原版只用于机器翻译任务,还不够通用。同期非 Transformer 架构如 LSTM、Mamba 以至 Diffusion 也可被视作大型话语模子。

CoVE 淡薄了语境化词向量,是迁徙学习领域的一项热切立异,但它通过监督学习磨练(英语翻译德语)创建向量,不适应自监督学习的条目。

ELMo 使用了自监督预磨练和监督微调范式,但在 few-shot 才略上还差点兴味。

总之在作家 Jonathon Belotti 看来,CoVE 和 ELMo 都还没达到谎言语模子的门槛。

天然素人

终末再来看 ULMFiT,其名字代表在文分内类任务微调的通用话语模子(Universal Language Model Fine-tuning for Text Classification)。

它是一个在 WikiText 数据上自监督磨练的 LSTM 模子,大约以低本钱适合新任务,无需改造架构即可实行无数文分内类任务,且达到其时的 SOTA 性能。

与 GPT-1 比拟,只差在微调不够浅近,以及期骗任务的广度。

GPT-1 论文原文中,也指出"最接近咱们责任的"便是 ULMFiT 与谷歌的半监督序列学习(Semi-supervised Sequence Learning)了。

GPT-1 论文还宣称,把 LSTM 换成 Transformer 后能拓展预磨练模子的接洽才略,比 ULMFit 任务适合性更高。

验证者 Jonathon Belotti 终末清雅到:

成为第一热切么?我合计有极少热切。软件行业和学术界尊重其首创东说念主,咱们都是开源社区中构建设备智域文化(homesteads the noosphere)的一部分。

而 Jeremy Howard 本东说念主对此的后续回答是咱们创造了第一个"通用话语模子",但后续论文莫得沿用,反而创造了"大型话语模子"这个新术语。

苹果工程师 Nathan Lawrence 合计,诚然今天公共对谁是第一个 LLM 可能存在争议,但最终公共都会把 ULMFiT 视为一个改造点。

其时即使我这么的怀疑论者,也快初始领略到大范围通用磨练将成为 NLP 的将来。

也有东说念主建议 Jeremy Howard 以后说 ULMFit 是第一个"通用预磨练模子"。

"我发明了 ChatGPT 中的 GP ",这句话提及来也很酷,极少也不夸张。

ULMFit

https://arxiv.org/abs/1801.06146

GPT-1

https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

参考通顺:

[ 1 ] https://x.com/jeremyphoward/status/1905763446840607164

[ 2 ] https://thundergolfer.com/blog/the-first-llm

一键三连「点赞」「转发」「禁锢心」

饶恕在筹议区留住你的目的!

—  完  —

速抢席位!中国 AIGC 产业峰会不雅众报名通说念已开启  � � ‍♀️

首批嘉宾曝光啦  � �   百度、无问芯穹、数势科技、生数科技、像素灵通等十数位 AI 领域创变者将皆聚峰会,让更多东说念主用上 AI、用好 AI,与 AI 一同加快成长~

4 月 16 日,就在北京,全部来深度求索 AI 怎样用  � �  

� � 一键星标 � �

科技前沿进展逐日见葬送的芙莉莲 动漫



Powered by 人体艺术 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024