telegram 偷拍
丁香无月

男同 sex 缺憾不?百度早商讨过Scaling Law,Anthropic CEO灵感都来自百度

发布日期:2024-11-29 12:47    点击次数:196

  

男同 sex 缺憾不?百度早商讨过Scaling Law,Anthropic CEO灵感都来自百度

机器之心报说念男同 sex

机器之机杼剪部

原来早在 2017 年,就进行过 Scaling Law 的谈判商讨,何况通过实证商讨考据了深度学习模子的泛化破绽和模子大小跟着考研集领域的增长而呈现出可展望的幂律 scaling 关连。仅仅,他们其时用的是 LSTM,而非 Transformer,也莫得将谈判发现定名为「Scaling Law」。

在追求 AGI 的说念路上,Scaling Law 是绕不开的一环。

要是 Scaling Law 撞到了天花板,扩大模子领域,增多算力不可大幅栽种模子的能力,那么就需要探索新的架构转变、算法优化或跨领域的手艺破损。

算作一个学术宗旨,Scaling Law 为东说念主所熟知,平时归功于 OpenAI 在 2020 年发的这篇论文:

论文标题:Scaling Laws for Neural Language Models论文连结:https://arxiv.org/pdf/2001.08361

论文中刺目地论证了模子的性能会随模子参数目、数据量、狡计资源增多而指数栽种。自后的几年里,OpenAI 算作通盘大模子领域的手艺引颈者,也将 Scaling Law 充分地踵事增华。

但对于咱们今天所挑剔的 Scaling law,它是奈何被发现的,谁最早发现的,又是哪个团队最早考据的,似乎很少有东说念主去考据。

近日,Anthropic 的 CEO Dario Amodei 在播客中论说了一个出东说念主猜想的版块。

图源:https://xueqiu.com/8973695164/312384612。发布者:@pacificwater

咱们可能更了解 Dario 在 2016 年之后的经历。他加入了 OpenAI,担任商讨副总裁,崇敬公司的安全使命,并指引团队成就了 GPT-2 和 GPT-3。

关联词,2020 年底,由于对 OpenAI 的发展标的产生不对, Dario 选拔离开,并于 2021 年 2 月与妹妹共同创立了 Anthropic。

如今,Anthropic 推出的 Claude 已成为挑战 GPT 系列霸主地位的最有劲竞争者。

不外,Dario 底本的商讨标的是神经回路,他第一次竟然进入 AI 领域是在百度。

从 2014 年 11 月到 2015 年 10 月,Dario 在百度使命了一年 —— 碰巧是吴恩达在百度担任首席科学家,崇敬「百度大脑」野心的时期。

他们其时在研发语音识别系统。Dario 默示,尽管深度学习展示了很大后劲,但其他东说念主仍然充满疑虑,认为深度学习还不及以达到预期的遵守,且距离他们所期待的与东说念主类大脑相匹配的框架还有很长的距离。

于是,Dario 运周折念考,要是把百度用于语音的作念得更大,增多更多的层数会如何?同期扩大数据量又会如何呢?

在陆续的尝试中,Dario 不雅察到了跟着给模子干涉越多的数据、狡计和考研,麻豆人妖它们的证据就越好,「那时我莫得精准地测量,但与共事们一皆,咱们额外直不雅地能感受到。」

但 Dario 和共事们也没深究,Dario 认为:「也许这只对语音识别系统有用,也许这仅仅一个特定领域的独特情况。」

直到 2017 年,他在 OpenAI 第一次看到 GPT-1 的考研完了时,他才清楚到这种「越多越好」的章程雷同适用于言语数据。而狡计资源的增多,托起了 Scaling Law 收效的底层逻辑。

真谛是不会只属于一个东说念主的,最终它会被每个东说念主发现。

其时有一批东说念主都清楚到了 Scaling Law 的存在,比如 Ilya Sutskever、「RL 教父」Rich Sutton、Gwern Branwen。

百度也在 2017 年发了一篇论文:「DEEP LEARNING SCALING IS PREDICTABLE, EMPIRICALLY」,展示了在机器翻译、言语建模、图像处分和语音识别等四个领域中,跟着考研集领域的增长,DL 泛化破绽和模子大小呈现出幂律增长格式。

《NLP with Transformers》的作家 Lewis Tunstall 发现,OpenAI 在 2020 发表的《Scaling Laws for Neural Language Models》援用了百度论文一作 Joel Hestness 在 2019 年的后续商讨,却没发现 Hestness 早在 2017 年就商讨过同类问题。

DeepMind 的商讨科学家 @SamuelMLSmith 默示,原来在 NeurIPS 和 Hestness 线下交流过。但两年后 Scaling Laws 论文发表时,他对温雅过这个问题,但没发论文的我方很不满。

而同期注重到 Scaling Law 的 Gwern Branwen,也时常拿起百度的这篇论文照实被惨酷了。

百度 2017 年的论文写了啥?

这篇题为「DEEP LEARNING SCALING IS PREDICTABLE, EMPIRICALLY(深度学习延长的可展望性:资格性商讨)」发布于 2017 年。其时,机器学习前驱 Rich Sutton 还莫得发布他的经典著作《苦涩的警戒》(发布时间是 2019 年)。

论文连结:https://arxiv.org/abs/1712.00409

论文提到,其时,深度学习社区还是通过礼服一个简便的「配方」在不同的诳骗领域获得了具有影响力的进展。这个「配方」如今全球已额外熟练,即寻找更好的模子架构、创建大型考研数据集以及延长狡计。

通过明白「配方」,百度的商讨者注重到,寻找更好的模子架构贫窭重重,因为你要对建模问题进行复杂或创造性的重构,这就触及大领域的超参数搜索。是以,架构方面的转变许多时候要依赖「顿悟」,具有极大的或然性。要是只把元气心灵放在这上头,风险例必很高。

少妇白洁全集

为了裁减风险,百度的商讨者提到,「配方」的另外两个部分 —— 创建大型考研集和延长狡计 —— 诅咒常值得去商讨的,因为这两个方面的进展赫然愈加可控。而且,「只需使用更无数据来考研更大的模子,就能提高准确率」还是成为一个共鸣。不外,百度想更进一步,分析考研集领域、狡计领域和模子准确性提高之间的关连。他们认为,准确展望泛化破绽随考研集领域扩大的变化规则,将提供一个强大的器具,以测度鼓吹 SOTA 手艺所需的本钱,包括数据和狡计资源的需求。

在此之前,也有不少商讨者进行了肖似商讨,分析了达到盼愿泛化破绽所需的样本复杂度,但论文中提到,这些完了似乎不及以准确展望践诺诳骗中的破绽 scaling 规则。还有一些商讨从表面上展望泛化破绽「学习弧线」呈幂律体式,即 ε(m) ∝。在这里,ε 是泛化破绽,m 是考研贴近的样本数目,α 是问题的一个常数属性。β_g= −0.5 或−1 是界说学习弧线笔陡度的 scaling 指数 —— 即通过增多更多的考研样本,一个模子眷属不错多快地学习。不外,在践诺诳骗中,商讨者发现,β_g 平时在−0.07 和−0.35 之间,这些指数是先前表面使命未能讲授的。

在这篇论文中,百度的商讨者建议了其时最大领域的基于实证的学习弧线特征描写,揭示了深度学习泛化破绽照实泄表示幂律雠校,但其指数必须通过实证进行展望。作家引入了一种神情,能够准确展望跟着考研集领域增多而变化的泛化破绽和模子大小。他们使用这种神情来测度四个诳骗领域(机器翻译、言语建模、图像分类和语音识别)中的六个深度神经网罗模子的 scaling 关连。

他们的完了泄露,在统统测试的领域中都存在幂律学习弧线。尽管不同的诳骗产生了不同的幂律指数和截距,但这些学习弧线卓著了普通的模子、优化器、正则化器和亏空函数。雠校的模子架构和优化器不错改善幂律截距,但不影响指数;单一领域的模子泄表示相通的学习弧线笔陡度。临了,他们发现模子从小考研集区域(主要由最好猜测主导)过渡到由幂律 scaling 主导的区域。有了豪阔大的考研集,模子将在主要由不可约破绽(举例贝叶斯破绽)主导的区域达到饱和。

此外,他们还描写了可展望的准确度和模子大小 scaling 的弥介意旨。对于深度学习从业东说念主员和商讨东说念主员来说,学习弧线不错匡助调试模子,并为雠校的模子架构展望准确性方针。

百度的商讨者在论文中默示,他们的商讨完了标明,咱们有契机加倍发愤,从表面上展望或讲授学习弧线指数。在操作上,可展望的学习弧线不错率领一些有运筹帷幄,如是否或如何增多数据集。临了,学习弧线和模子大小弧线可用于率领系统联想和延长,它们强调了执续延长狡计的弥留性。

神经机器翻译学习弧线。

单词言语模子的学习弧线和模子大小完了和趋势。

字符言语模子的学习弧线和模子大小完了和趋势。

ResNet 图像分类任务上的学习弧线和模子大小完了和趋势。

DS2 和注重力语音模子的学习弧线(左),以及不同 DS2 模子尺寸(1.7M ~ 87M 参数)的学习弧线(右)。

对于百度而言,早期对 Scaling Law 的商讨未能实时滚动为普通的践诺诳骗,这在公司的发展史上大约算得上是一个不小的缺憾。

https://x.com/jxmnop/status/1861473014673797411

https://arxiv.org/abs/1712.00409



Powered by telegram 偷拍 @2013-2022 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024