欢迎访问黑料吃瓜网

10年专注吃瓜

吃瓜质量有保 售后7×24小时服务

24小时咨询热线:4006666666
您的位置:首页>>吃瓜入口>>正文

吃瓜入口

Hinton万字访谈:用更大模型「猜测下一个词」值得竭尽全力

发布时间:2025-05-02 点此:122次

机器之心编辑部

经典的Hinton万字访谈:用更大模型「预测下一个词」值得全力以赴的照片

「这份访谈的每一秒都是精华。」最近,图灵奖得主 Geoffrey Hinton 的一个访谈视频得到了网友的高度评价。

视频链接:https://www.youtube.com/watch?v=tP-4njhyGvo&t=660s

在访谈中,Hinton 谈到了许多论题,包含其时大模型的技能道路、多模态学习的重要性、 数字核算与同享常识、智能体系的认识与情感以及他的协作者和优异学生……

Hinton 以为,大型言语模型经过寻觅不同范畴的一同结构来进行编码,这种才干使它们能够紧缩信息并构成深层次的了解,发实际践国际中人类没有发现的万事万物的联络,这是创造力的来历。他还提到,经过猜测下一个符号,模型实践上有必要履行必定程度的推理,而不是像许多人所说的大模型并不具有推理才干。跟着模型规划的增加,这种推理才干也将变得越来越强。这是一个值得竭尽全力的方向。

在回想和 Ilya 的师生协作时,Hinton 提到,Ilya 具有很好的直觉。他很早就预见到,增大模型的规划是有用的,尽管其时 Hinton 并不看好这个主见。实际证明,Ilya 的直觉是很准的。

整个访谈时刻跨度比较大,为了便利整理故事布景,咱们能够先回想一下 Hinton 的职业生涯:

  • 1947 年 12 月 6 日,Hinton 出生于英国温布尔登。

  • 1970 年,取得剑桥大学试验心思学学士学位。

  • 1976 年 —1978 年,担任苏塞克斯大学认知科学研讨项目研讨员。

  • 1978 年,取得爱丁堡大学人工智能学博士学位。

  • 1978 年 —1980 年,担任加州大学圣地亚哥分校认知科学系访问学者。

  • 1980 年 —1982 年,担任英国剑桥 MRC 运用心思学部科学管理人员。

  • 1982 年 —1987 年,历任卡内基梅隆大学核算机科学系助理教授、副教授。

  • 1987 年 —1998 年,担任多伦多大学核算机科学系教授。

  • 1996 年,当选为加拿大皇家学会院士。

  • 1998 年,当选为英国皇家学会院士。

  • 1998 年 —2001 年,担任伦敦大学学院盖茨比核算神经科学部开创主任。

  • 2001 年 —2014 年,担任多伦多大学核算机科学系教授。

  • 2003 年,当选为认知科学学会会士。

  • 2013 年 —2016 年,担任谷歌出色研讨员。

  • 2016 年 —2023 年,担任谷歌副总裁兼工程研讨员。

  • 2023 年,从谷歌辞去职务。

以下是访谈内容:

,时长

45:46

起点:了解大脑的作业办法

Hinton:我还记住我第一次从英国到卡内基梅隆大学的时分。在英国的研讨机构,咱们到了 6 点都会去酒吧喝一杯。但到了卡内基梅隆,几周后的一个周六晚上,那时我还没有任何朋友,也不知道该做什么,所以我决议去试验室编程。由于我有一台列表机(list machine),这个东西不能在家编程。所以我在周六晚上大约 9 点钟去了试验室,成果里边挤满了人,全部的学生都在那儿。他们之所以这样,是由于他们所做的作业代表未来。他们都信赖,他们接下来做的作业将改动核算机科学的进程。这与英国的状况十分不同,十分令人耳目一新。

Hellermark:咱们回到起点 —— 剑桥时期的你。其时,你企图了解大脑的作业办法,那时是什么状况?

Hinton:那是段十分令人绝望的韶光。我其时首要研讨生理学。在夏日学期,他们要教咱们大脑是怎样作业的。他们教的仅仅神经元怎样传导动作电位,这十分风趣,但它并没有奉告你大脑是怎样作业的。所以那十分令人绝望。随后,我转向了哲学。那时的主见是,或许哲学会奉告咱们思想是怎样作业的。成果相同令人绝望。我终究去了爱丁堡大学学习人工智能,那更风趣。至少你能够仿照东西,这样你就能够测验理论了。

Hellermark:你还记住是什么让你对 AI 产生了爱好吗?是读了某篇论文吗?仍是某个特定的人向你介绍了这些主见?

Hinton:我想是 Donald Hebb(加拿大心思学家,认知心思生理学的开创者)写的一本书对我产生了很大影响。他对怎样在神经网络中学习衔接强度十分感爱好。我还读了冯・诺依曼(核算机之父)的书,他对大脑怎样核算以及它与一般核算机有何不同十分感爱好。

Hellermark:在爱丁堡的那些日子里,你有没有一种信仰,以为这些主见会成功?或许你其时的直觉是什么?

Hinton:在我看来,大脑必定有一种学习的办法。大脑的学习并非依托将各种事物预设编程,然后运用逻辑推理规矩 —— 这种做法从一开端就显得过于张狂。因而,咱们有必要解开大脑是怎样学会调整神经网络中的衔接,使其能够处理杂乱事物的疑团。关于冯・诺依曼和图灵来说也是如此。冯・诺依曼和图灵都十分拿手逻辑,但他们不信赖这种逻辑办法。

Hellermark:你是怎样将研讨神经科学的主见与仅仅做那些看起来不错的人工智能算法区别开来的?你在前期取得了多少创意?

Hinton:我并没有在神经科学上做太多研讨。我总是遭到我对大脑作业原理的启示,那里有一堆神经元,它们履行相对简略的操作。它们对错线性的,但它们搜集输入,加权这些输入,然后输出取决于那些加权输入。问题是,你怎样改动这些权重,让整个体系做出一些好的作业。这看起来像是一个适当简略的问题。

Hellermark:你还记住那时的协作者吗?

Hinton:我在卡内基梅隆的首要协作目标并不是卡内基梅隆的人。我与在巴尔的摩约翰・霍普金斯大学的 Terrence Sejnowski 有许多互动。大约每月一次,要么他开车去匹兹堡,要么我开车去巴尔的摩。两地间隔 250 英里(约 402 公里)。咱们会一同度过一个周末,一同在巴尔的摩的机器上作业。那是一次很棒的协作。咱们都信赖那便是大脑的作业办法。那是我所做过的最令人兴奋的研讨,产出了许多技能上十分风趣的成果,但我以为那不是大脑的作业办法。

我还与 Peter Brown 有很好的协作,他是一位十分优异的统计学家,在 IBM 作业,研讨语音辨认。他是作为一名老练的学生来到卡内基梅隆的,为了拿到博士学位。其实他现已懂得许多了。他教了我许多关于语音的常识,教了我隐马尔可夫模型。我觉得我从他那里学到的比他从我这儿学到的要多。这便是咱们都想要的那种学生。当他教我隐马尔可夫模型时,我正在用躲藏层做反向传达。那时它还不叫躲藏层。我以为马尔可夫模型中运用的这个姓名关于那些你不知道它们在干什么的变量来说是一个很好的姓名。所以这便是神经网络中「躲藏层」姓名的由来。

谈 Ilya:他有很好的直觉

Hellermark:带咱们回想一下 Ilya 呈现在你办公室的时分。

Hinton:那或许是一个周日,我在编程,然后有人敲门。不是随意的敲,而是有点急迫的那种。然后我去开门,门口站着一个年青的学生。他说他整个夏天都在炸薯条,但他更愿意在我的试验室作业。我说,你为什么不预定一下,咱们再谈谈?然后 Ilya 说,「现在谈怎样样?」这便是 Ilya 的性情。

咱们聊了一瞬间,我给了他一篇论文,那是宣布在 Nature 上的反向传达的论文。咱们又组织了一周后的另一次会议。他回来说他没了解,我十分绝望。我以为他看起来是个聪明人。我给他的论文只触及链式法则,不难了解。成果他说,「不,我了解了那部分。我仅仅不明白你为什么不把梯度给一个合理的函数优化器」。这个问题让咱们考虑了好几年。Ilya 便是这样,他有很好的直觉,他的主见总是很好。

Hellermark:你以为是什么让 Ilya 有了那些直觉?

Hinton:我不知道。他总是自己考虑。他从小就对 AI 感爱好,还拿手数学。

Hellermark:你们两个之间是怎样协作的?你扮演了什么人物,Ilya 扮演了什么人物?

Hinton:跟他协作十分风趣。我记住有一次咱们企图用一种杂乱的办法制造数据图,我有一种混合模型,你能够用相同的一组相似性制造两张图。这样在一张图上,银行或许离绿洲很近,在另一张图上,银行或许离河流很近。由于在一张图上,你不能让它一同离两者都很近,对吧?由于河流和绿洲间隔很远。

咱们用 MATLAB 做这件事,这触及到许多的代码重组,以进行正确的矩阵乘法。然后他厌烦了。所以有一天,他说,「我要去为 MATLAB 写一个接口。我要用这种不同的言语编程,我有一些东西能够将其转换为 MATLAB。」我说,「不,Ilya,那将花费你一个月的时刻。咱们有必要持续这个项目。不要被那个作业涣散注意力。」Ilya 说,「不要紧,我今日早上就做好了。」

Hellermark:太难以幻想了。在那些年里,最大的改动不只仅是算法,还有规划(scale)。这些年来你是怎样看待 scale 的?

Hinton:Ilya 很早就有了那种直觉。所以 Ilya 总是说,你只要把它做得更大,作用就会更好。我总觉得这有点逃避实践,你也得有新主见。成果,他的直觉基本上是正确的。新的主见有协助。Transformer 之类的东西帮了大忙,但实在的问题在于数据的规划和核算的规划。那时,咱们底子不知道核算时机快上 10 亿倍。咱们以为或许会快上 100 倍。咱们企图经过提出一些聪明的主见来处理问题,但假设咱们有更大的数据和核算规划,这些问题就会方便的处理。

大约 2011 年,Ilya、我和另一个名叫 James Martins 的研讨生,宣布了一篇运用字符级猜测的论文。咱们运用维基百科,测验猜测下一个 HTML 字符。成果作用十分好。咱们一向对它的作用感到惊奇。那是在 GPU 上运用了一个花哨的优化器,咱们永久无法信赖它能了解任何东西,但它看起来如同能了解,这看起来简直难以幻想。

「猜测下一个词」也需求推理

独特的Hinton万字访谈:用更大模型「预测下一个词」值得全力以赴的照片

Hellermark:这些模型是怎样猜测下一个词的?为什么这是一种过错的考虑它们的办法?

Hinton:我并不以为这是过错的办法。实际上,我以为我制造了第一个运用嵌入和反向传达的神经网络言语模型。数据十分简略,仅仅三元组,它将每个符号转换为嵌入,然后让嵌入相互作用以猜测下一个符号的嵌入,然后从那猜测下一个符号,然后它经过整个进程进行反向传达来学习这些三元组。我展现了它能够泛化.

大约 10 年后,Yoshua Bengio 运用了一个十分相似的网络,并证明它能够处理实在文本。尔后大约 10 年,言语学家们开端信赖嵌入。这是一个缓慢的进程。

我之所以以为它不只仅是猜测下一个符号,是由于假设你问,猜测下一个符号需求什么?具体来说,假设你问我一个问题,然后答案的第一个词便是下一个符号,你就有必要了解这个问题。因而,我以为猜测下一个符号与旧式的主动补全功用很不相同。在旧式的主动补全功用中,你需求存储三元组单词。然后,假设你看到一对单词,你会看到不同单词呈现在第三位的频率,这样你就能猜测下一个符号。这便是大多数人以为的主动补全功用。现在现已彻底不是这样了。

为了猜测下一个符号,你有必要了解所说的话。所以我以为,经过让它猜测下一个符号,你正在迫使它去了解。我以为这和咱们的了解办法是相同的。许多人会奉告你这些东西不像咱们,它们仅仅猜测下一个符号,不像咱们那样进行推理。但实践上,为了猜测下一个符号,它有必要进行一些推理。咱们现在现已看到了,即便你不参加任何特别的推理元素,仅仅是制造出大的模型,它们也现已能够进行一些推理了。我想,当你把它们做得更大时,它们就能进行更多的推理。

Hellermark:在你看来,我现在除了猜测下一个符号之外还在做什么?

Hinton:我以为那便是你的学习办法。你在猜测下一个视频帧,你在猜测下一个声响。但我以为这是一个适当合理的大脑学习理论。

Hellermark:是什么让这些模型能够学到如此宽广的范畴?

Hinton:这些大型言语模型所做的是寻觅一同的结构。它们能够运用一同的结构来编码事物,这样更有功率。

举个比方,假设你问 GPT-4,为什么堆肥堆像原子弹?大多数人答复不出来。大多数人没有想过,他们会以为原子弹和堆肥堆是十分不同的东西。但 GPT-4 会奉告你,它们的能量规划十分不同,时刻规划十分不同。但它们的一同点是,当堆肥堆变得更热时,它产生热量的速度更快;当原子弹产生更多的中子时,它产生中子的速度也更快。所以这就得到了连锁反应的概念。我信赖它了解这两种连锁反应,它运用这种了解将全部这些信息紧缩到它的权重中。假设它的确在这样做,那么它将会对咱们还没有看到的全部事物进行相同的操作。这便是创造力的来历 —— 看到这些外表上天壤之别的事物之间的类比联系。

所以我以为,当 GPT-4 变得更大时,它终究会变得十分有创造力。那种以为它仅仅在重复学习过的东西,仅仅把现已学过的内容张贴在一同的主见,是彻底过错的。它会比人类更有创造力。

Hellermark:你说它不只仅会重复咱们迄今为止所开发的人类常识,还或许取得更大的前进。我以为咱们现在还没有充沛看到这一点。咱们现已开端看到一些比方,但在更大范围内,它还停留在其时的科学水平。你以为怎样才干让它逾越这个水平?

Hinton:咱们在更有限的状况下看到过这种状况。比方在 AlphaGo 和李世石的那场闻名竞赛中,在第 37 步,AlphaGo 下了一步全部专家都以为必定是过错的棋,但后来他们认识到这是一步绝妙的棋。这便是在有限范畴内的创造性。我以为跟着模型规划的扩展,咱们会看到更多这样的状况。

Hellermark:AlphaGo 的不同之处在于它运用了强化学习,这使它能够逾越其时状况。它从仿照学习开端,调查人类怎样下棋,然后经过自我对弈,开展得远远超出了那个水平。你以为这是规范组件缺失的部分吗?

Hinton:我以为这或许是缺失的部分。AlphaGo 和 AlphaZero 中的自我对弈是它们能够做出这些创造性行为的很大一部分原因。但我不以为这是彻底必要的。

有一个很久以前的试验,你练习一个神经网络来辨认手写数字。我十分喜爱这个比方。你给它的练习数据中有一半的标签是过错的。问题是它能学得多好?而且这些过错标签是固定的,每次看到特定样本时它都与相同的过错标签配对,所以它不能经过屡次看到相相同本但标签有时正确有时过错来均匀化这些过错。练习数据中有 50% 的过错标签,但假设你用反向传达练习神经网络,它的过错率能够降到 5% 以下。换句话说,即便从标示过错的数据中,它也能得到更好的成果。它能够辨认出练习数据中的过错。这就像聪明的学生比他们的导师更聪明。导师奉告他们许多东西,但有一半的信息是过错的,学生能分辩出哪些是错的,只听正确的那一半,终究比导师更聪明。所以这些大规划神经网络实践上能够做到的比它们的练习数据更好,大多数人并没有认识到这一点。

Hellermark:那么你以为这些模型将怎样将推理融入其间呢?我的意思是,一种办法是在模型之上增加启示式办法,现在许多研讨都在这样做,你能够在模型中参加一些考虑,将推理反应给模型自身。另一种办法是扩展模型规划。你的直觉是怎样做?

Hinton:我的直觉是,跟着咱们扩展这些模型的规划,它们会变得更拿手推理。假设你问人们是怎样作业的,大致说来,咱们有这些直觉,咱们能够运用推理,咱们运用推理来纠正咱们的直觉。当然,在推理进程中咱们也会用到直觉。但假设推理的定论与咱们的直觉抵触,咱们会认识到需求改动直觉。这很像在 AlphaGo 或 AlphaZero 中,你有一个评价函数,它仅仅看着棋盘说,这对我有多好?但当你进行蒙特卡洛仿照时,你就会得到一个更精确的主见,然后批改你的评价函数。所以你能够练习它,让它赞同推理的成果。

我以为这些大型言语模型有必要开端这样做。它们有必要开端练习自己的原始直觉,经过推理来判别下一步应该做什么,并认识到这是不对的。这样,它们就能取得更多的练习数据,而不只仅是仿照人们的行为。这正是 AlphaGo 能够构想出这个创造性的第 37 步的原因。它有更多的练习数据,由于它是经过推理来确认下一步应该怎样走的。

模型能从言语中学到许多,但从多模态中学习会更简略

Hellermark:你怎样看待多模态?当咱们引进图画、视频和声响时,你以为这将怎样改动模型?

Hinton:我以为这会有很大的改动。我以为这会让模型在了解空间事物方面做得更好。例如,仅从言语来了解一些空间事物适当困难,尽管令人惊奇的是,即便在成为多模态模型之前,GPT-4 也能做到这一点。可是当 GPT-4 成为多模态模型时,假设你一同让它做视觉和触觉,伸手去抓取东西,它会更了解物体。

所以尽管你能够从言语中学到许多东西,但假设是多模态,学习会更简略。实践上,你需求的言语就更少了。例如,有许多 YouTube 视频能够猜测下一个画面。所以我以为多模态模型显着会占有主导地位。这能够取得更多数据,需求的言语会更少。所以这是一个哲学观念,你能够仅从言语中学到一个很好的模型,但从多模态体系中学到它要简略得多。

Hellermark:你以为这将怎样影响模型的推理?

Hinton:我以为这会让模型在空间推理方面做得更好。例如,关于假设拿起物体会产生什么的推理。假设真的测验拿起物体,你会得到各式各样的练习数据。

关于「认知」的三种观念

Hellermark:你以为人类大脑进化到能够很好地运用言语,仍是言语进化到能够很好地与人类大脑协作?

Hinton:关于言语是否进化到与大脑协作,或许大脑是否进化到与言语协作的问题,我以为这是一个十分好的问题。我以为两者都产生了。

我从前以为咱们会在底子不需求言语的状况下进行许多认知活动,但现在我改动主见了。我举三种关于言语以及它与认知的联系的观念。

第一种,旧式象征性观念,即认知由一些清理过的逻辑言语中的符号字符串组成,没有歧义,且运用推理规矩。因而认知仅仅对像言语符号字符串这样的东西进行符号操作。这是一种极点观念。

另一种极点观念是:一旦进入大脑内部,全部都是向量。符号进来,你将这些符号转换为大型向量,全部的洞悉都是用大型向量完结的。假设你想产生输出,你将再次产生符号。所以在 2014 年的机器翻译中有一个时刻,人们运用循环神经网络,单词会不断进来,它们会有一个躲藏状况,并在这个躲藏状况中不断累积信息。所以当抵达语句的结束时,就有一个大的躲藏向量,捕捉了语句的含义。然后它能够用来产生另一种言语中的单词,这被称为思想向量。这是关于言语的第二种观念。

还有第三种观念,也是我现在信赖的,即大脑将这些符号转换为嵌入,并运用多层嵌入。所以你将得到十分丰富的嵌入。但嵌入依然与符号相相关,从这个含义上讲,符号有其对应的大向量。这些向量相互作用产生下一个词的符号的向量。因而了解是指知道怎样将符号转换为向量,以及向量的元素怎样相互作用以猜测下一个符号的向量。这便是大型言语模型以及咱们的大脑中的了解办法。你保存符号,但将其解说为大向量。全部的作业以及全部的常识都在于运用哪些向量以及这些向量的元素怎样相互作用,而不是在符号规矩中。但这并不是说你彻底摆脱了符号,而是说将符号转换为大向量,但保存符号的外表结构。这便是大型言语模型的运作办法。现在我以为这好像也是人类思想一个更合理的模型。

「黄仁勋送了我一块 GPU」

Hellermark:您是最早想到运用 GPU 的人之一。我知道 Jensen(黄仁勋)因而而爱您。早在 2009 年,您就提到您奉告 Jensen,运用 GPU 关于练习神经网络来说或许是一个十分好的主见。

Hinton:实践上,2006 年左右,我有一个名叫 Richard Szeliski 的研讨生。他是一个十分优异的核算机视觉专家。我在一次会议上和他评论,他说应该考虑运用图形处理单元,由于它们十分拿手矩阵乘法,而您所做的作业基本上便是矩阵乘法。

所以我考虑了一段时刻。然后咱们了解到 Tesla 体系配有四个 GPU。开端咱们测验运用游戏 GPU,发现它们使作业速度快了 30 倍。然后咱们买了一个带有四个 GPU 的 Tesla 体系,咱们在它上面做了语音处理,作用十分好。

然后在 2009 年,我在 NIPS 上做了一个讲演,我奉告 1000 名机器学习研讨人员,你们都应该去买英伟达的 GPU。GPU 是未来。你们需求 GPU 来进行机器学习。然后我实践上给英伟达发了邮件,说我奉告了 1000 名机器学习研讨人员去买你们的产品,你们能免费送我一个吗?他们没有说不。实践上,他们没有回复。但后来当我奉告 Jensen 这个故事时,他免费送给我一个。

数字体系有人类无法比拟的优势

Hellermark:那太好了。我以为风趣的是 GPU 的演化与这个范畴的开展是同步的。你以为咱们接下来在核算方面应该走向何方?

Hinton:我在谷歌的终究几年,我一向在考虑怎样测验进行仿照核算。即不是运用像一兆瓦这样巨大的电力,而是运用像大脑相同的 30 瓦电力,就能够在仿照硬件中作业大型言语模型。

这一点我从未完结过。但我开端实在赏识数字核算。假设你要运用低功耗仿照核算,每个硬件都会有所不同,要运用硬件的特定特点。这便是产生在人类身上的作业。咱们全部人的大脑都不同,所以咱们不能把你大脑中的权重拿出来放进我的大脑。硬件是不同的。单个神经元的切当特点是不同的。

当咱们逝世后,咱们的常识和经历大部分会随之消失,由于人类传递常识的办法一般触及言语沟通,这种办法相对功率较低。但是,数字体系则不同,它们能够经过同享权重(即学习过的数据和参数)来传递常识。一旦一个数字体系学习了某些常识,这些权重就能够被保存并在其他任何相同装备的体系中重用。这种办法不只确保了常识的精确仿制,还极大提高了学习和常识同享的功率。因而,数字体系在同享和分散常识方面,具有远超人类的才干。

需求得到注重的快速权重

Hellermark:许多现已在实践运用中布置的人工智能体系的理念源于前期的神经科学理论,这些理念现已存在了很长时刻。现在的问题是,还有哪些未被充沛运用的神经科学理论能够运用到咱们开发的体系中?这需求咱们探究神经科学中的未被充沛发掘的理论,将它们转化为技能,以推进人工智能技能的进一步开展。

Hinton:在人工智能与神经科学的比照中,一个咱们仍需追逐的重要方面是改动的时刻尺度。在简直全部的神经网络中,都存在快速时刻尺度的活动改动 —— 输入数据后,嵌入向量会产生改动。而另一种是慢速时刻尺度,即权重的改动,这联系到长时刻学习。在大脑中也有这两个时刻尺度。

例如,假设我忽然说出一个意外的词,比方黄瓜,五分钟后你戴上耳机,在喧闹的环境中,假设有很细微的话语声,你会更简略辨认出黄瓜这个词,由于我五分钟前说过它了。那么这个常识存储在哪里呢?在大脑中。这种认知显着是暂时性的突触改动所保存的,而不是特定的神经元来保存 —— 咱们的大脑中并没有足够多的神经元来做这种事。这种暂时性的权重改动,我称之为快速权重,在咱们现在的神经模型中并没有运用。

咱们之所以没有在模型中运用快速权重,是由于假设权重的暂时性改动依托于输入数据,那么咱们就无法一同处理多种不同的状况。现在,咱们一般会将多种不同的数据批量堆叠在一同,并行处理,由于这样能够进行矩阵乘法,功率更高。正是这种功率的需求阻止了咱们运用快速权重。但是,大脑显着运用快速权重来进行暂时回忆存储,而且能够经过这种办法完结许多咱们现在未能做到的功用。

我曾对像 GraphCore(一家英国半导体公司,开发人工智能和机器学习加速器,它引进了大规划并行智能处理单元,在处理器内保存完好的机器学习模型)这样的技能抱有很大期望,假设它们采纳序列办法并只进行在线学习,那么它们就能运用快速权重。但这种办法没有取得成功。我以为,当人们开端运用导电性(conductances)作为权重时,这种办法终究会取得成功。

乔姆斯基的部分理论是无稽之谈

Hellermark:了解这些模型的作业原理以及大脑的作业原理对你的考虑办法有何影响?

Hinton:我以为有很大的影响,这是一个适当笼统的水平。一向以来,在 AI 范畴,从前有一个广泛的观念以为,仅仅依托许多练习数据让一个巨大的随机神经网络去学习杂乱事物是不或许的。假设你和统计学家、言语学家或大多数人工智能范畴的人沟通,他们会说这仅仅一个白日梦,以为没有大规划的架构,就无法学习到实在杂乱的常识。

高质量的Hinton万字访谈:用更大模型「预测下一个词」值得全力以赴的图像

但实践状况彻底推翻了这种观念。实际证明,你能够经过许多数据练习一个巨大的随机神经网络,运用随机梯度下降办法不断调整权重,然后学习到杂乱的事物。这一发现对咱们了解大脑的结构具有重要含义,标明大脑并不需求天生就具有全部的结构性常识。当然,大脑的确具有许多先天结构,但它显着不需求依托这些结构来学习那些简略取得的常识。

这种观念也挑战了乔姆斯基的言语学理论,即杂乱的言语学习有必要依托于先天就织造在大脑中的结构,而且要等候这种结构老练。这种主见现在显着是无稽之谈。

Hellermark:我信赖乔姆斯基会感谢你称他的观念为无稽之谈。

智能体系也能具有情感

Hellermark:你以为要使这些模型更有用地仿照人类的认识,需求做些什么?

Hinton:我以为它们也能够呈现情感(feeling)。咱们常常倾向于运用「内部剧场模型」来解说感知(perception)和情感。比方我说我想打 Gary 的鼻子,让咱们试着把它从内部剧场模型的概念中笼统出来。这一般被解说为一种内部情感体会。但是,这种模型或许并不精确。实践上,当我表达这种情感时,我的实在目的是,假设不是由于我的前额叶的抑制造用,我或许真的会采纳这样的举动。因而,所谓的情感,实践上是咱们在没有约束的状况下或许会采纳的举动。

实际上,这些感觉并非人类独有,机器人或其他智能体系也有或许体会情感。例如,1973 年在爱丁堡,我见过一个机器人表现出情感。这个机器人有两个抓手,能够在绿色毛毡上拼装玩具轿车,只要将零件分隔放置。但假设你把零件堆在一同,由于它的视觉体系不够好,无法分辩状况,它会显得困惑并将零件击散,然后再进行拼装。假设这种行为产生在人类身上,咱们或许会以为他由于不了解状况而感到恼怒,并因而摧毁了它。

Hellermark:这让人形象深入。你之前说过,你将人类和大型言语模型描绘为类比机器(analogy machines)。你以为你终身中发现的最有力的类比是什么?

Hinton:在我的终身中,一个对我影响很大的、尽管有些勉强的类比是宗教信仰与符号处理之间的相似性。我出生在一个无神论家庭,当我还很小的时分,上学时初次接触到宗教信仰,对我来说那彻底是无稽之谈,直到现在我依然这么以为。当我了解到符号处理被用来解说人们的行为时,我觉得这和宗教信仰相同荒唐。但现在我不再以为它彻底是无稽之谈,由于我的确以为咱们进行了符号处理,只不过咱们是经过为这些符号赋予嵌入向量来处理的。但咱们实践上是在进行符号处理,仅仅办法与人们本来幻想的彻底不同。人们曾以为符号处理仅仅简略地匹配符号,一个符号只要一个特点:要么与另一个符号相同,要么不相同。咱们底子不是这样做的。咱们运用上下文为符号供给嵌入向量,然后运用这些嵌入向量的组件之间的相互作用来进行考虑。

但谷歌有一位十分优异的研讨人员,名叫 Fernando Pereira,他曾标明咱们的确有符号推理。咱们具有的仅有符号是自然言语。自然言语是一种符号言语,咱们用它进行推理。我现在信赖了。

关于问题坚持置疑,然后证明它

Hellermark:你现已完结了核算机科学史上一些最有含义的研讨。能否向咱们介绍一下,例如,怎样挑选正确的问题进行研讨?

Hinton:我和我的学生做了许多最有含义的作业。这首要归功于与学生的杰出协作以及我挑选优异学生的才干。这是由于在上世纪 70 时代、80 时代、90 时代以及进入 21 世纪,很少有人研讨神经网络。所以从事神经网络研讨的少数人能够挑选到最优异的学生,还需求依托一点命运。

但我挑选研讨问题的办法基本上是这样的:你知道,当科学家议论他们的作业办法时,他们会有一些关于作业办法的理论,这些理论或许与实际并无太大相关。但我的理论是,我会寻觅一个咱们都认同的观念,但感觉上好像有些不对劲的当地。一般是有一种奇妙的直觉,觉得某处有问题,仅仅有一点点感觉不对劲。然后我就会研讨这个问题,企图具体解说为什么它是过错的。或许我能用一个小型核算机程序做一个小演示,显现它的作业办法并不像你或许预期的那样。

让我举一个比方。大多数人以为,假设你给神经网络增加噪声,它的作用会变差。实践上,咱们知道假设这样做,它的泛化才干会更好。这能够经过一个简略的比方来证明,这便是核算机仿照的优点。你能够展现你原先的主见 —— 增加噪声会使作用变差,让一半的神经元中止作业会使其作用变差 —— 在短期内的确如此。但假设你像这样练习它,终究它的作用会更好。你能够经过一个小型核算机程序来演示这一点,然后你能够细心考虑为什么会这样。这便是我的作业办法:找到一个听起来可疑的东西,然后研讨它,看看你是否能用一个简略的演示来阐明它为什么是过错的。

Hinton 想持续研讨的未解之谜:大脑运作办法

Hellermark:最近,什么东西引起了你的置疑?

Hinton:咱们不运用快速权重,这看起来有些问题。咱们只要这两种时刻尺度,这显着是过错的。这与大脑的运作办法彻底不同。从长远来看,我以为咱们将需求更多的时刻尺度。

Hellermark:假设你现在带领一组学生,他们来找你,提到咱们之前评论过的问题,你地点的范畴中最重要的问题是什么?你会主张他们接下来研讨并作业什么?咱们谈到了推理的时刻尺度。你主张的最优先的问题是什么?

Hinton:对我来说,现在的问题和我曩昔大约 30 年一向重视的问题相同,那便是大脑是否进行反向传达?我信赖大脑在获取梯度。假设你没有获取到梯度,你的学习作用会比获取到梯度时差许多。但大脑是怎样获取梯度的?它是否在完结某种近似版别的反向传达,或许是采用了一种彻底不同的技能?这是一个很大的未解之谜。假设我持续从事研讨,这便是我即将研讨的内容。

Hellermark:当你现在回想你的职业生涯时,你在许多作业上都是正确的。但假设其时用很少的时刻来决议的方向后来被证明是过错的?

Hinton:这儿有两个独自的问题。1、你做错了什么?2、你期望自己少花点时刻吗?我以为我对玻尔兹曼机的观念是过错的,我很快乐我在它上面花了很长时刻。关于怎样取得梯度,有比反向传达更美丽的理论,它仅仅一般且合理的,它仅仅一个章节。这两个机制都很聪明,这是一种十分风趣的获取梯度的办法。我期望大脑是这样运作的,但我以为实际并非如此。

Hellermark:您是否花了许多时刻幻想体系开发后会产生什么?假设咱们能让这些体系作业得很好,咱们就能够完结教育的民主化,咱们能够让常识更简略取得,咱们能够处理医学上的一些扎手问题。或许对你来说更重要的是了解大脑作业的机制?

Hinton:是的,我的确觉得科学家应该做那些能协助社会的作业。但实践上,这不是你做出最好的研讨的办法。当你的研讨被好奇心驱动时,你才干做出最好的研讨。

你只需求了解一些作业。更近地,我认识到这些东西或许会形成许多损伤,也会带来许多优点。我变得愈加重视它们对社会的影响。但这不是动机。我只想知道大脑是怎样学会干事的?那便是我想知道的。而我在试错的进程中,咱们得到了一些不错的工程成果。

Hellermark:是的,这对国际来说是一个有利的失利。假设从或许带来巨大正面影响的视点来看,你以为最有远景的运用是什么?

Hinton:我以为医疗保健显着是一个大范畴。在医疗方面,社会能够吸收的数量简直没有约束。对一个白叟来说,他们或许需求全职的五位医师。所以当 AI 在干事上比人类更好时,你会期望你在这些范畴呈现更多的资源 —— 假设每个人都有三位医师,那就太好了。咱们将到达那个境地。

还有新的工程,开发新材料,例如更好的太阳能电池板、室温超导或仅仅是了解身体的作业原理。这些都会有很大的影响力。我忧虑的是坏人运用它们做坏事。

Hellermark:你有没有忧虑过,怠慢这个范畴的开展速度也或许会怠慢活跃的一面?

Hinton:当然。我以为这个范畴不太或许怠慢速度,部分原因是它是国际性的。假设一个国家怠慢速度,其他国家不会怠慢速度。之前有一个提议说咱们应该暂停大模型研讨六个月。我没有签名,由于我以为这永久不会产生。我或许应该签字,由于即便它永久不会产生,它也标明晰一个观念。有时为了标明态度而运用它也是功德。但我不以为咱们会怠慢速度。

Hellermark:你以为具有(ChatGPT)这样的帮手将怎样影响 AI 研讨进程?

Hinton:我以为它将使 AI 研讨变得愈加高效。当你有这些帮手来协助你编程,也协助你考虑问题,或许会在方程式上协助你许多。

挑选学生,更垂青直觉

Hellermark:你有没有深思熟虑过挑选人才的进程?这对你来说大多是凭直觉的吗?就像当 Ilya Sutskever 呈现在门口时,你会觉得「这是一个聪明人,让咱们一同作业吧」。

Hinton:关于挑选人才,有时分是很显着的。在攀谈后不久,你就能看出他十分聪明。进一步攀谈你会发现,他显着十分聪明,而且在数学上有很好的直觉。所以这是垂手可得的。

还有一次我在 NIPS 会议上,咱们有一个 Poster,有人走过来问咱们关于 Poster 的问题。他问的每个问题都是对咱们做错了什么的深入洞悉。五分钟后,我给了他一个博士后职位。那个人是 David McKay,他十分聪明。他逝世了,这十分令人伤心,但他显着是你想要的那种人。

其他时分就不那么显着了。我学到的一件事是,人是不同的。不只仅有一种类型的好学生。有些学生或许不那么有创造力,但从技能视点来看十分强壮,能够让任何作业都作业起来。还有一些学生技能上不那么强,但十分有创造力。当然,你想要的是两者兼备的人,但你并不总是能得到。但我以为实践上在试验室里,你需求各种不同类型的研讨生。但我仍是跟着我的直觉走,有时你和或人攀谈,他们真的十分聪明,他们便是能跟得上思路,那便是你想要的人。

Hellermark:你以为你对有些人有更好的直觉的原因是什么?或许说你怎样培育你的直觉?

Hinton:我以为部分原因是,他们不会承受无含义的东西。有个取得糟糕直觉的办法,那便是信赖你被奉告的全部,那太丧命了。你有必要能够... 我以为有些人是这样做的,他们对了解实践有一个完好的结构。当有人奉告他们某些作业时,他们会企图弄清楚这怎样习惯他们的结构。假设不适合,他们就回绝它。这是一个十分好的战略。

企图吸收他们被奉告的全部的人终究会得到一个十分含糊的结构。他们能够信赖全部,那是没有用的。所以我以为实践上具有一个对国际的坚决观念,并企图整合输入的实际以习惯你的观念,这或许会导致深入的宗教信仰和丧命的缺点等等,像我对玻尔兹曼机的信仰,但我以为这是正确的。

假设你有牢靠的好直觉,你应该信赖它们。假设你的直觉欠好,怎样做都没用了。所以你无妨信赖它们。

竭尽全力,用多模态数据练习更大的模型

Hellermark:这是一个十分好的观念。当你看正在进行的研讨类型时,你以为咱们是不是在把全部的鸡蛋放在一个篮子里。咱们是否应该在范畴内更多样化咱们的主见?仍是说你以为这是最有期望的方向,所以咱们应该竭尽全力?

Hinton:我以为具有大型模型并在多模态数据上练习它们,即便仅仅为了猜测下一个词,这是一个十分有期望的办法,咱们应该竭尽全力。显着,现在有许多人在做这件事,还有许多人在做一些看似张狂的作业,这是功德。但我以为让大多数人走这条路是没问题的,由于它运作得十分好。

Hellermark:你以为学习算法真的那么重要吗,仍是说规划更重要?是否稀有百万种办法能够让咱们到达人类等级的智能,仍是有一些咱们需求发现的特定办法?

Hinton:是的,关于特定的学习算法是否十分重要,是否有许多学习算法能够完结这项作业,我不知道答案。但在我看来,反向传达在某种含义上是正确的作业。取得梯度,这样你就能够改动参数让它作业得更好,这好像是正确的作业,而且它取得了惊人的成功。或许还有其他的学习算法,它们以不同的办法取得相同的梯度,而且也能作业。我以为这都是敞开的,而且是一个十分风趣的问题,即是否有其他你能够企图最大化的东西,会给你好的体系。或许大脑正在这样做,由于它很简略。反向传达在某种含义上是正确的作业,咱们知道这样做十分有用。

终身最骄傲的成果:玻尔兹曼机的学习算法

Hellermark:终究一个问题。回想你几十年的研讨,你最骄傲的是什么?是学生?仍是研讨?

Hinton:玻尔兹曼机的学习算法。它十分高雅,或许在实践中没有期望,但这是我最享用的作业,我与 Terry 一同开发了它,这是我最骄傲的,即便它是过错的。

论文链接:https://www.cs.toronto.edu/~fritz/absps/cogscibm.pdf

Hellermark:你现在花最多时刻考虑的问题是什么?

Hinton:在 Netflix 上下个剧该看什么。

告发/反应

相关推荐

在线客服
服务热线

24小时咨询热线:

4006666666

微信咨询
黑料家庭吃瓜网
返回顶部