yoav 「LeCun论战Yoav」自然语言GAN惹争议：深度学习远离NLP？

「LeCun论战Yoav」自然语言GAN惹争议：深度学习远离NLP？

新智元编译

6 月 2 日，新智元曾介绍过一篇在 ArXiv 上非常火的文章《自然语言对抗生成》（Adversarial Generation of Natural Language），作者包括著名的《深度学习》（Deep Learning）一书的作者 Aaron Courville。论文用 GAN 解决自然语言处理问题，“在中国诗词数据集上取得目前最好结果”。研究人员表示，他们为训练 GAN 生成自然语言提供了一种直接有效的方法。

然而，就是这篇论文，却引起了深度学习界大神 Yann LeCun 和 Yoav Goldberg 的激烈论战。当然，也许不应该称作是深度学习界的论战，因为后者坚持认为自己是语言学界的。

在《自然语言对抗生成》在 ArXiv 上火了以后，先是 Yoav Goldberg 发了一篇推特。

之后，虽然认为自己“有更重要的事情要做”，可 Yoav Goldberg 还是又写了一篇长文，痛快淋漓地阐明了自己的观点。他说：“拜托你们这帮搞深度学习的人，别再抓着语言不放并声称自己已经解决语言的问题了！ ”当然，他的用词要更强烈一点，这一点可以从下面的截图上看出来。

看到这篇文章，现任脸书人工智能实验室主任的 Yann LeCun 颇为不满，他在几个小时前刚刚在 Facebook 撰文，对 Yoav 进行了驳斥，他说：“这言论居然来自 Yoav ？他自己也在从事将深度学习应用于 NLP 的研究啊！”

现在，让我们逆向追溯这场论战，从 Yann LeCun 到 Yoav Goldberg 再到论文原文，看看论战的焦点及背后的意义何在。

Yann LeCun：这言论居然来自 Yoav ？他自己也在从事将深度学习应用于 NLP 的研究。

Yann LeCun 在 FaceBook 上发文如下：

上传论文到 ArXiv 没坏处，至少可以先把坑占上。

Yoav Goldberg 的这篇文章在过去几天内已经在 Interwebz 上广泛流传，连篇累牍地表达了对 MILA 上某篇关于文本生成的论文所使用的方法论的不满。

这篇文章同时也表达了对于深度学习社群迅速上传论文至 ArXiv 这种惯常做法的不满。我实难苟同。

我无意为 Yoav 讨论的那篇论文辩解。我连读都没读过。但是 Yoav 有很多在我听来相当自卫式的言论，包括“拜托你们这帮搞深度学习的人，别再抓着语言不放并声称自己已经解决语言的问题了”，以及“语言对我而言很神圣，对搞深度学习的人而言则不然”。这听起来很像其他社群的人每当神经网络或深度学习在他们的领域稍有突破时所持的论调，例如上世纪九十年代初的字符识别、2010年前后的语音识别、2014年的计算机视觉，以及现在的自然语言处理。我理解背后的原因，但是这听起来完全就是掀起论战，更让人惊愕的是这言论还来自 Yoav, 他自己也在从事将深度学习应用于自然语言处理的研究。

公平地说，这篇文章现在已经被大量的澄清（又称“往回找补”）变得好一些了了（https://medium.com/@yoav.goldberg/clarifications-re-adversarial-review-of-adversarial-learning-of-nat-lang-post-62acd39ebe0d）。

Nikos Paragios（他所说的“不那么老”的人）也写了一篇类似的自卫式的文章，哀叹了 DL 所引起的计算机视觉的方法论转变。（https://www.linkedin.com/pulse/computer-vision-research-my-deep-depression-nikos-paragios）

任何时候一个社群与另一个社群发生冲突，就有好戏看了。起初社群 A 认为社群 B 的论文技术性较差，社群 B 则认为 A 的论文在方法上有缺陷，结果低于基准线。这种事情一遍又一遍地发生，机器学习社群有时会扮演 A（B 是语音，视觉，图像，NLP），有时候扮演 B（A 是统计、优化或 CS 的各种理论分支）。除非两个社群能有共同的方向，否则将一个社群的标准应用于另一社群的研究工作上就没有道理。如果社群被视为不同方向的单位向量，A 在 B 上的投影比 B 短，你就可能会认为 A 低于 B，但反之亦然：B 在 A 上的投影也比 A 要短。社群间发展出共同的语言并采用彼此的最佳方法是需要时间的。

让我们回到 ArXiv。Yoav 和其他人一直抱怨说，在 ArXiv 上发表的不完善的论文鼓励了“挖坑占坑”的行为：作者想到一个idea，快速但是马虎地实现这个想法，然后在 ArXiv 上发表一个不怎么样的结果，期望第一个得到认可。有人认为这是不公平的，因为更重要的事情是研究，而不仅仅是得到一个想法。这完全正确。一个想法，或一项技术的演化过程，是得到idea，实现它，证明它能工作，让它在实验问题上工作，让它在一个真正的问题上与其他方法工作得同样好，让它打破纪录，提出一个使它工作的方法，从理论上解释它为什么工作，优化并简化它，将它一般化以适用其他问题，围绕着它开发新的技术，做成一个产品，销售产品……

这个过程中各个角色都应该获得不同程度的功劳。在科学的历史上，很少是最初提出idea的那个人包揽全部声誉（虽然我听说一些应该继续默默无名的人，声称全部功劳都应该是他的）。

在 ArXiv 上发表论文的过程比传统的出版模式更加有效。它当然不会取代传统的同行评议模式。是的，它改变了“声誉”应该归于谁的问题，但这没关系。

为什么迅速上传 ArXiv 的做法更高效？因为它遵循的是“市集”的协作模式，而非“大教堂”式的传统出版模式（参见 Eric Raymond 的“大教堂与市集”，http://www.catb.org/esr/writings/cathedral-bazaar/）。在软件开发中，Linux 使用的为市集模式，即早发布、常发布；与之对应的是 GNU/Hurd 的大教堂模式，即直到获得完美无缺的版本之后才发布。市集模式无疑高效地多。

原因何在？ArXiv/ 市集模式嘈杂而混乱，但是因为反馈频繁而进展更快。这非常类似随机梯度和批量梯度之间的差异：随机梯度嘈杂而混乱，但快速高效得多。

对于一篇方法论马虎的半吊子论文仅凭一个想法就会获得认可的担心在我看来是多虑了。社群内通常都会分辨出真正的研究贡献并给予相应的认可。历来如此。

所有那些来自“深度学习”社群而非来自“自然语言”社群的论文都是 Yoav Goldberg 反对的对象

虽然 Yoav Goldberg 这次是在针对一篇论文，但实际上他想要传达的消息是更广泛的——所有那些来自“深度学习”研究社区而非来自“自然语言”研究社区的论文都是他反对的对象。

除了对ArXiv 预印版发表给出评论，Golenberg 在自然语言处理方面最强烈的观点还是他“深深地崇敬自然语言”。

在评论使用 GAN 生成自然语言的例子时，

* what everything they take everything away from

* how is the antoher headache

* will you have two moment ?

* This is undergoing operation a year.

“这些根本不符合语法规则（grammatical）！”是他给出的感叹，并且在原文中加粗表示。

同时，也让这场争议重新回到了语言学家 VS 计算机科学家的大背景中。

在第一篇文章引发意外多的反响后，Goldberg 再次在 Medium 撰文，重申并且澄清了他的一些观点。

首先，他针对 GAN 生成自然语言那篇论文的批评，并非是论文没有得出当前最佳的结果，而是“我想要看见一系列让人信服的实验，证明将新方法确实提出了值得关注的、新的有趣的结果”。

其次，他不认为论文作者使用模拟任务（toy task）有任何问题。“使用 toy task 是 OK 的，”Goldberg 写道，“往往还是好事（desirable）”。

第三，他的批评并非针对论文没有解决自然语言生成这一问题。“论文当然没有解决自然语言生成（NLG）的问题……没有那篇论文能够‘解决’NLG，就像没有那篇生物学论文能解决癌症一样。”Goldberg 认为，论文应该在题目或摘要里说明自己的工作和研究范畴。

最后，他也没有认为论文“incremental”有什么不好。实际上大多数论文都是“incremental”的。但论文作者需要明确地指出这一点。

导火索《自然语言对抗生成》讲了啥？

巧的是，对于这次争论的导火索——《自然语言对抗生成》（Adversarial Generation of Natural Language）这篇论文，新智元曾经在第一时间做过介绍，这里是传送门（【GAN X NLP】自然语言对抗生成：加拿大研究员使用GAN生成中国古诗词）。

摘要

生成对抗网络（GAN）近来在计算机视觉界引起了很多注意，在图像生成方面取得了令人印象深刻的结果。但是，从噪音中对抗生成自然语言的进展与在图像生成方面的进展并不相称，仍远远落后于基于似然的方法（likelihood based methods）。本文中，我们单一以 GAN 为目标，生成自然语言。论文引入了一个简单的基准，解决了离散输出空间问题，不依赖于梯度估计函数（gradient estimator），并在一个中国诗词数据集上取得了当前最好的结果。论文还提供了从无上下文和随机上下文无关文法（probabilistic context-free grammar）生成句子的定量结果，以及语言建模的定性结果。论文还描述了一个能够根据句子条件特征生成序列的条件版本（conditional version）。

作者介绍，语言模型一般是通过测量模型下样本与真实数据分布的似然进行评估的。然而，使用 GAN，测量模型本身的似然是不可能的，因此他们采取了其他方法，通过测量模型样本在真实数据分布下的似然对结果进行评估。

原文链接：1.https://www.facebook.com/yann.lecun/posts/10154498539442143

2.https://medium.com/@yoav.goldberg/an-adversarial-review-of-adversarial-generation-of-natural-language-409ac3378bd7

3.https://medium.com/@yoav.goldberg/clarifications-re-adversarial-review-of-adversarial-learning-of-nat-lang-post-62acd39ebe0d

Yoav撰文再回应LeCun：「深度学习这群人」不了解NLP

选自Medium

机器之心编译

作者：Yoav Goldberg

参与：黄小天

昨日，机器之心发布了一篇题为《从 Yoav Goldberg 与 Yann LeCun 争论，看当今的深度学习、NLP 与 arXiv 风气》的文章，文中 Yann LeCun 在 Facebook 对 Yoav Goldberg 的批评文章做出了回应。接着，Yoav 又在 Medium 对 Yann 的回应进行了再回应，甚至稍后在推特上也有争论。机器之心对 Yoav 的第二次发文进行编译，并广泛收集了国内外各个平台上的各家评论，试图对这次事件有一个全面客观的描述。译文内容不代表机器之心立场。原文链接见文末。

很感谢大家对于我上篇博文（An Adversarial Review of「Adversarial Generation of Natural Language」）的关注和讨论，也很感谢 Yann 在 Facebook 上做出的回应。下面，我将对其回应做一次再回应。

（我选择了在 Medium 而不是 Facebook 上做再回应，是因为我并不太常使用 Facebook，所以索性不用。我已经把大把时间花在了社交网络上，不想再多跳进一个坑。同时，Medium 更有利于我组织文章格式，把控内容。）

Yann 指出我的上篇博文是「背弃式」的（back-pedaling），我并不如此看。对于上篇博文中批评的那篇蒙特利尔大学的论文，我言之有据，虽然不是严肃的论文形式，但是其表达的观点不会改变。不管怎么样，下面我会继续用我的「背弃式」言论来回应 Yann：

我并不反对将深度学习方法应用于自然语言任务上。

我的意思是说，come on。我是很多把深度学习用于自然语言的论文的联合作者，我曾做过题为「LSTM 应用」的演讲。最近我发表了一本关于如何把神经网络方法应用于 NLP 的书籍。深度学习方法正在为了 NLP 而发生改变，我认为这部分现在要很好地确立起来。

我所反对的是这样一种趋势，深度学习这群人（deep-learning community）对于其所要踏入的领域（包括 NLP）只有肤浅认识，不多花时间对问题领域做深入了解就直接给出大而未经证实的主张。这不是「交流机制还没有建立」的问题，而是不花时间和精力去通晓你所在领域的问题。不一定要知晓先前的所有工作，但要知道基本的定义和评价指标。宣称取得了「当前最佳的汉语诗歌生成结果」（引自论文摘要）是荒诞的。声称「我们评估了 CFG 的使用」，却没有搞明白 CFG 代表什么不仅仅是草率、马虎的问题了。使用 PCFG 分配的可能性作为衡量以「捕捉句子的语法性」是完全错误的（并非不道德）。

（并且写下由 1-hot 编码向量组成的矩阵外表上看起来和盲文代码相似，因此这是「我们的方法为什么有效」的灵感（Zhang 和 LeCun 2015 arXiv 论文 1-4 版 https://arxiv.org/pdf/1502.01710v4.pdf），这篇论文是愚蠢的。）

当我说「你应该尊重语言」时，我并不是在说你应该尊重之前的其他努力和方法论（尽管也可以对你很有帮助），而是在说你应该去注意所要解决问题的细微差别。至少有个足够的了解，这样你的评估才有意义。

一些「核心深度学习」研究者在这方面做的很好，贡献很大。Kyunghyun Cho（译者注：纽约大学计算机科学系助理教授）也许是其中最突出的一个。

现在，回到 arXiv 的问题上来：

我认为 Yann 的回应在这个问题上错失了重点。我并不介意在 arXiv 上快速发文。我看到了 arXiv 出现的明显收益和快速转变。但是也应该知道其缺点。我尤其关心科学与 arXiv 所推动的公共事业的混淆；雪球效应以及权力的滥用；深度学习社区中现有的一些出版现象。

提早在 arXiv 上发文没有问题，但是名不副实以及过分宣称就有问题。马虎的带有大而空洞标题的论文（比如自然语言的对抗式生成）就是有害的。这正是合理的专利系统与沽名钓誉的真正区别。

声称在用于离散序列的 WGAN 中使用了 softmax 而不是独热输出没有问题，但是占坑声称将对抗式训练应用于 NLG 就存在问题，正如这篇论文所做的那样。

Yann 的论点可能是：「但是人们可以阅读论文，辨别出什么才是好论文，时间会告诉我们答案。」时间的纠正也许是对的，但是中短期内知名团队的过分宣传的论文依然是有害的。大多数人并不深读一篇论文，他们只看个标题、摘要或简介，但是对于知名团队的论文，人们倾向于相信其主张而不质疑。认真的研究者也许不会这样做，但是大多人很可能会被误导。这里我所指的大多数人并不真正工作于这一精确的子领域。这包括产业界人士、同僚、潜在的学生以及论文和津贴的潜在评论者。在这篇论文出来的很短时间内，我在若干个场合下已经听说，「哦，你对生成感兴趣？你尝试使用 GAN 了吗？我看到在最近的这篇论文中他们把 GAN 应用于 NLG 取得了很酷的结果。」这对于在来年申请津贴的 NLG 研究者来说极其有害和令人厌恶，因为他们要么浪费宝贵的时间和精力处理这篇论文和 Hu 等人的论文，并解释它们为什么不相关；要么他们因为致力于「这一已经解决的问题」而被解雇，尽管这篇论文和 Hu 等人的论文并没有实际贡献太多价值，尽管两篇论文的评估都非常糟糕。

arXiv 的快节奏对当前领域有着积极的影响，但是「能力越大，责任越大」，我们必须小心谨慎才不至于滥用。我们可以通过负责任地采取行动，推动更加科学化的出版文化，从而使 arXiv 变的更强大，在其中我们重视和鼓励合理的评估和研究成果的精确呈现，并劝阻（甚至开发一个惩罚系统）民粹言论、过分宣称和夸大其事。

原文链接：https://medium.com/@yoav.goldberg/a-response-to-yann-lecuns-response-245125295c02

各方评论

对于 Yoav 的第二次发文回应，Yann 旋即在推特上展开了回应：

谷歌大脑研究人员 hardmaru 直接引用了 Yoav 第二次发文的原话「oh, you are interested in generation? have you tried using GANs? I saw this recent paper in which they get cool results with adversarial learning for NLG」来表达自己的看法：

Keras 作者、谷歌深度学习研究员 François Chollet 认为我们不应该将精力浪费在这种学术琐事上：

以及推特上稍早一些的评论，比如 Quora 工程副总裁 Xavier Amatriain 的 tweetstorm：

俄勒冈大学计算机与信息科学助理教授 Daniel Lowd 谈了下深度学习对评审制度的改变：

UC Santa Barbara 计算机科学系助理教授王威廉在微博上就 arXiv 占坑现象表达了其看法：

知乎上的也有不少点评（详情可参阅：https://www.zhihu.com/question/60902505），比如知乎用户 Yun Zhou：

约翰·霍普金斯大学 Research and Teaching Assistant 梅洪源对 Yun Zhou 的答案作了评论补充：

清华大学计算机科学与技术系助理研究员刘知远的点评：

另外，刘知远还在其微博上发表了 LeCun 对于 Yoav 的批评的看法：

北京邮电大学 PRIS 模式识别实验室陈老师（微博名称爱可可-爱生活）在微博上也表达了其看法：

最后，再附上来自机器之心公众号第一篇文章报道的的读者评论：

yoav 「LeCun论战Yoav」自然语言GAN惹争议：深度学习远离NLP？

分类：成人改名日期：2025-04-19 浏览：23 评论：0

「LeCun论战Yoav」自然语言GAN惹争议：深度学习远离NLP？

Yoav撰文再回应LeCun：「深度学习这群人」不了解NLP

相关推荐

控制面板

最新留言

yoav 「LeCun论战Yoav」自然语言GAN惹争议：深度学习远离NLP？

分类：成人改名 日期：2025-04-19 浏览：23 评论：0

「LeCun论战Yoav」自然语言GAN惹争议：深度学习远离NLP？

Yoav撰文再回应LeCun：「深度学习这群人」不了解NLP

相关推荐

控制面板

最新留言

分类：成人改名日期：2025-04-19 浏览：23 评论：0