你所在的位置: 首页 > 正文

ACL 2019最佳论文出炉:华人团队包揽最佳长短论文一作,中科院、华为等榜上有名

2019-08-20 点击:1168
?

郭一珍,安妮卞策,来自凹庙

关于ACL 2019的最佳论文刚刚发布。

刚才,ACL 2019发表了自然语言处理领域的最佳论文。这次颁发了4个奖项,共有8个奖项,即:

n

最好的长纸

最佳短文

最佳DEMO论文

5个优秀论文奖

今年,华人一作团队拿下了最佳长论文、最佳短论文和2篇杰出论文,中国科学院,中国科学院大学,腾讯,华为诺亚方舟实验室,南京理工大学,香港理工大学等都在名单上。

今年的ACL 2019是前所未有的活跃。根据ACL正式公布的数据,今年收到了2,906份意见书,比去年提交的1,544份意见书增加了75%以上。

让我们来看看今年最好的论文是什么,以及各个国家和机构的战争是如何:

%5C

最好的长纸

最佳长论文获奖者是中国的研究人员,本文的标题是:

Bridging the Gap between Training and Inference for Neural Machine Translation

%5C

图片由Twitter用户Aarne Talman提供

本文来自中国科学院计算技术研究所智能信息处理重点实验室,中国科学院的张文和杨峰,腾讯微信人工研究员孟凡,伍斯特理工学院的迪尤和华为诺亚方舟实验室的刘群。

本文探讨了如何弥合神经机器翻译(NMT)训练和推理之间的差距。

神经机器翻译(NMT)是一种基于上下文内容预测下一个单词的方法。推理过程按顺序开始和生成整个序列。这会导致由于未标记的上下文而导致的累积错误。

另外,存在一个挑战,即单词级训练要求所生成的序列与地面实况序列严格匹配,这导致不同但合理的翻译的过度校正。

在本文中,研究人员提出了一个解决上述问题的方法,称为Overcorrection Recovery(0x9A9A)。

简而言之,在训练过程中,不仅从地面实况序列中提取上下文词,而且从模型预测序列中提取上下文词,并选择句子级最优预测序列。

也就是说,在翻译过程中,模型不需要逐字比较标准来确定损失函数。

具体做法是:

%5C

该方法首先从预测的单词中选择oracle单词,然后使用oracle单词和地面真实单词作为上下文的示例。

同时,oracle单词不仅通过逐字贪婪搜索选择,而且通过句子级评估(例如BLEU)来选择。在训练开始时,模型以相对大的概率选择上下文真实单词。随着模型逐渐收敛,oracle词语被更频繁地选择为上下文。

研究人员对中文 - >英语和WMT'14英语 - >进行了实验。德语翻译任务,结果表明这种新方法可以在多个数据集上得到改进。

他们还验证了RNNsearch模型和Transformer模型的新方法。结果表明,新方法可以显着提高两种模型的性能。

%5C

最佳短文

%5C

OR

来自Twitter用户Saif M. Mohammad

最好的短篇论文之一也是中国人,俄亥俄州立大学博士生姜南江,第二名是学校的助理教授玛丽 - 凯瑟琳德马内夫。

%5C

蒋南江,来自她的GitHub自我介绍

“你知道佛罗伦萨挤满了游客吗?”

在这个时候,你可以回答:“知道,它非常拥挤。”

“你觉得佛罗伦萨挤满了游客吗?”

改变两个词后,问题已经改变,成为一个主观问题。你可以回答“好吧,我想是的。”或者“不,我不这么认为。”

这里涉及到问题。在以前的研究中,它也被称为事件事实。了解此问题对于信息提取和问题回答至关重要。

在这里,研究人员找到了推断说话者承诺(Inferring speaker commitment)数据集,可能是这样的:

%5C

使用这个数据集,研究人员评估了两个当前最高的模型,发现它们在负面和无效嵌入动词上表现更好,并且语言信息模型优于基于LSTM的模型,并且可以更成功地扩展到具有挑战性的模型自然数据。

换句话说,需要语言知识来捕获这些具有挑战性的自然数据。

件语句,模态和负增长。

因此,研究人员已经为这种语言模型提出了改进方向:为了强烈的语言理解,模型需要包含更多的语言预测,并且可以扩展到更广泛的语言结构。

这也是本文的核心贡献。

CommitmentBank

Do you know that Florence is packed with visitors?

最佳演示论文

%5C

Evaluating state-of-the-art models of speaker commitment

来自Twitter用户Aarne Talman

今年的最佳演示论文被授予Unbabel团队,他们提出了一个基于Pytorch的开源框架OpenKiwi来评估神经机器翻译的质量。

Unbabel是一家成立于2013年的创业公司,为客户提供人工智能驱动的人工翻译平台,主要专注于客户服务交换的翻译。其客户包括Booking.com和Facebook等公司。

OpenKiwi支持单词级和句子级质量评估系统的培训和测试,并在WMT 2015-18质量评估竞赛中获胜。 OpenKiwi对两个WMT 2018(英语 - 德语SMT和NMT)数据集进行基准测试,在单词级任务中实现了性能,并且在句子级任务中接近最先进的性能。

%5C

OpenKiwi的功能是:

n n

训练QE模型并使用预训练模型来评估MT框架;

n

支持单词和句子级别的质量评估;

n

Pytorch中有五种QE系统实现:QUETCH,NuQE,预测器估计器,APE-QE和一系列线性系统[2,3]。

n

易于使用的API,可以作为包导入其他项目或从命令行运行;

n

提供脚本以在WMT 2018数据上运行预先训练的QE模型。

n

使用yaml配置文件轻松跟踪和重现实验。

n

n

n

代码地址:

n

n

5篇优秀论文

n

1,OpenKiwi: An Open Source Framework for Quality Estimation

n

n

Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts:芮霞,丁子祥(南京工业大学)

n

2.作者

n

n

A Simple Theoretical Model of Importance for Summarization:Maxime Peyrard(EPFL)

n

3.作者

n

n

Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems:吴建生,Andrea Madotto,Ehsan Hosseini-Asl,Caiming Xiong,Richard Socher和Pascale Fung(香港科技大学,Salesforce等)

n

4.作者

n

n

We need to talk about standard splits:Kyle Gorman和Steven Bedrick(纽约市立大学,俄勒冈健康科学大学等)

n

5.作者

n

n

Zero-Shot Entity Linking by Reading Entity Descriptions:Lajanugen Logeswaran,Ming-Wei Chang,Kenton Lee,Kristina Toutanova,Jacob Devlin和Honglak Lee(密歇根大学,谷歌等)

n

中国和美国的提交是最热情的

n

根据ACL发布的官方数据,今年共有61个国家提交了论文。其中,美国机构提交的数量略高于中国大陆机构,英国和德国提交的数量分别为第三和第四。

n

%5C

n

作者

n

来自ACL官方统计数据的图片

n

ACL官方统计:

n

n

除了提交的数量之外,还有收据的数量。 ACL 2019收到765篇论文,录取率为25.8%,略高于前两年的24%。

n

其中,长篇论文收到论文447篇,短篇论文收到论文213篇,收到论文34篇,收到学生研讨会71篇。

n

收到论文清单:

n

n

近年来,ACL提交的数量也逐年增加,但论文的接受程度并未放松,接受率与往年相似。

n

%5C

n

n

来自ACL 2019官方网站

n

在所有研究领域,流行和提交的卷是信息提取和文本挖掘机器学习,提交量超过200.

n

在接收速率方面,最困难的区域是机器翻译文档分析,接收速率小于五分之一。

n

%5C

n

句子级语义

n

来自ACL 2019官方网站

n

在所有国家中,最活跃的提交者是来自中国和美国的学者,他们已经投票选出了800多篇论文,但考虑到中国AI领域的许多学者都在美国学习,很多论文都是美国的大学和学院。两者都是中国人,所以中国人对ACL的热情最高。

n

然而,就录取率而言,中文论文比美国论文低近10个百分点。不包括提交数量较少的国家,提交人数超过30的国家将发现前五位获奖者是新加坡(34.8%),以色列(34.1%)和英国(29.7%)。美国(28.8%)和德国(28.7%)。

n

%5C

n

n

来自ACL 2019官方网站

n

在700多篇论文中,最佳论文提名为,其中包括17篇长篇论文,11篇论文和4篇演示论文。

n

在提名论文中,24个来自主要大学和研究机构,7个来自工业,另一个来自星博团队,由CMU和兴博公司Petuum委托。生产,研究和研究的结合。

n

从国家的角度来看,美国有14篇文章,中国有6篇文章(其中一篇是日本和中国大学共同拥有),英国有3篇,瑞士有2篇,日本,加拿大,印度有2篇。比利时。一个在巴西,韩国和俄罗斯。

n

在有两篇以上论文的机构中,只有两家公司,一家是谷歌,四家提名,其中两家是一家;另一个是华为诺亚方舟实验室,两篇论文已经提名,一个是工作。

n

%5C

n

此外,在所有提交论文的大学和研究机构中,洛桑联邦理工学院,华盛顿大学,爱丁堡大学和芝加哥丰田理工大学各有两篇论文提名; CMU提名三篇论文,John Hope两篇论文由国王大学,清华大学和艾伦人工智能研究所提名。他们每个人都有一份提名论文。

n

%5C

n

40%的提名论文是中国人

n

从论文作者的角度来看,在这32篇提名论文中,32篇13篇论文的第一作者是华人

n

这13件中国作品的论文是:

n

1.检测文本和语音中的隐藏信息

n

作者:胡胜利(康奈尔大学)

n

n

2. AMR解析为序列到图形的转换

n

作者:张盛等(约翰霍普金斯大学)

n

n

3.面向任务的可转移多域状态生成器

n

作者:吴建生(香港科技大学),Andrea Madotto,Ehsan Hosseini-Asl等。

n

n

4.用于文本生成的模块化,通用且可扩展的工具包

n

作者:Zhiting Hu Hu Ting(CMU),Haoran Shi,Bowen Tan等。

n

n

5,情感 - 原因对提取:文本情感分析的新任务

n

作者:芮霞(南京),丁子祥

n

n

6.视觉接地神经语法习得

n

作者:Haoyue Shi(芝加哥丰田技术学院),Jiayuan Mao,Kevin Gimpel和Karen Livescu

n

n

7.无监督解析的模仿学习方法

n

作者:Bowen Li(爱丁堡大学),Lili Mou,Frank Keller

n

n

8.可分解的神经释义生成

n

作者:李子超(华为诺亚方舟实验室),新江,李立峰,刘群

n

n

9.具有双重对抗输入的鲁棒神经机器翻译

n

作者:Yong Cheng(Google AI),Lu Jiang和Wolfgang Macherey

n

n

10.弥合神经机器翻译的训练和推理之间的差距

n

作者:张文(中科院),杨峰,孟凡东,狄佑,刘群。

n

n

你知道佛罗伦萨挤满了游客吗?评估最先进的演讲者承诺模型

n

作者:南江江(俄亥俄州立大学)等。

n

12. ConvLab:多域端到端对话系统平台

n

作者:Sungjin Lee(微软研究院),Qi Zhu,Ryuichi Takanobu等。

n

13,善意劝说:走向个性化的社会善意说服对话系统

n

作者:王学伟(浙江大学),魏蔚诗等。

n

n

门户[p> n n

日期归档
澳门银河娱乐注册 版权所有© www.zxtysp.com 技术支持:澳门银河娱乐注册 | 网站地图