汽车行业
亚搏体育_ACL2020:获奖论文集锦「5秒获取九篇论文、源码」
ACL2020最佳论文奖题目:逾越准确性:使用检查表对NLP模型举行行为测试摘要:只管丈量保持的准确性一直是评估泛化的主要方法,但它经常高估了NLP模型的性能,而评估模型的替代方规则着重于单个任务或特定行为。受软件工程中行为测试原理的启发,我们引入了CheckList,这是一种用于测试NLP模型的不行知论方法。
CheckList包罗有助于全面测试构想的通用语言功效和测试类型矩阵,以及用于快速生成大量差别测试案例的软件工具。我们通过测试三个任务来说明CheckList的实用性,以识别商业模型和最新模型中的关键故障。在用户研究中,卖力商业情绪分析模型的团队在经由广泛测试的模型中发现了新的可操作错误。在另一项用户研究中,具有CheckList的NLP从业人员建立了两倍的测试,发现的错误险些是没有它的用户的三倍。
在这项事情中,我们提出了CheckList,这是一种用于NLP模型的综合行为测试的新评估方法和随附的工具1。CheckList通过提供适用于大多数任务的语言功效列表来指导用户举行测试。为了将潜在的功效故障剖析为特定的行为,CheckList引入了差别的测试类型,例如在存在某些扰动的情况下的预测稳定性,或对一系列健全性检查的性能。最后,我们对CheckList的实现包罗多个抽象,可资助用户轻松生成大量测试用例,例如模板,词典,通用扰动,可视化和上下文感知建议。
关注 人工智能学术前沿 回复 :acl015秒免费获取论文pdf文档,及项目源码ACL2020最佳主题论文题目:迈向NLU:关于数据时代的意义,形式和明白摘要:大型神经语言模型在许多NLP任务上的乐成令人振奋。可是,我们发现这些乐成有时会引起炒作,这些模型被形貌为明白语言或捕捉意义。
在这篇态度文件中,我们认为,一个只接受形式训练的系统先天无法学习意义。为了与ACL 2020主题“盘货我们已经做过的事情和将要做的事情”保持一致,我们认为,对形式和意义之间的区此外清晰明白将有助于引导该领域朝着围绕自然语言明白的更好的偏向生长。在本文中,我们认为,与当前的一些炒作相反,意义不能仅从形式中学到。
这意味着甚至像BERT这样的大型语言模型也不会学习寄义; 他们学习了将意义反映为语言形式的方法,这在应用法式中很是有用。对于基于这些LM的研究,我们就如何保持康健但不夸张的乐观提出了一些想法。特别地,这篇文章可以被看作是一个呼吁准确的语言使用时,谈到现在的模式的乐成和谦虚的处置惩罚自然语言。
有了这个,我们希望勉励在我们的领域自上而下的看法,我们认为这将资助我们选择正确的山峰攀缘到类似人类的NLU。关注 人工智能学术前沿 回复 :acl025秒免费获取论文pdf文档,及项目源码ACL2020最佳DEMO论文题目:GAIA: 细粒度多媒体知识提取系统摘要:我们展示了第一个全面的、开源的多媒体知识提取系统,它未来自种种泉源和语言的大量非结构化、异构的多媒体数据流作为输入,并凭据富厚的、细粒度的本体建立一个连贯的、结构化的知识库、索引实体、关系和事件。我们的系统GAIA 能够无缝搜索庞大的图形查询,并检索包罗文本,图像和视频在内的多媒体证据。
在最近的NIST TAC SM-KBP2019评估中,GAIA取得了最佳性能。该系统可在GitHub和DockerHub上公然获得,并提供完整的文档。
图1:跨媒体知识融合的示例,并检察可视化知识提取的内部情况图2:由自动从多媒体多语言新闻报道中提取的事件构建的面向用户的知识网络视图。我们显示事件参数、类型、摘要、类似事件,以及从相应图像和视频中提取的视觉知识。
我们展示了一个先进的多媒体多语言知识抽取和事件推荐系统。该系统使用户能够利便地搜索从多媒体、多语言泉源(如文本、图像、视频、语音和OCR)提取、链接和总结庞大事件的知识网络。
关注 人工智能学术前沿 回复 :acl035秒免费获取论文pdf文档,及项目源码ACL2020最佳论文提名奖1题目:不要停止预训练:使语言模型适应差别领域和任务摘要:对种种泉源的文本举行预先训练的语言模型组成了今天NLP的基础。鉴于这些广泛笼罩的模型的乐成,我们研究了为目的任务的领域定制一个预先训练好的模型是否仍然有用。
我们展示了一项跨四个领域(生物医学和盘算机科学出书物、新闻和评论)和八个分类任务的研究,讲明领域预训练的第二阶段(领域自适应预训练)在高资源和低资源设置下都能提高性能。此外,纵然在领域自适应预训练之后,适应任务的未标志数据(任务自适应预训练)也会提高性能。最后,我们证明晰适应使用简朴数据选择计谋扩充的任务语料库是一种有效的选择,特别是在领域自适应预训练资源可能不行用的情况下。总的来说,我们一致发现多相预训练在任务体现上有很大的提高。
图1:数据漫衍的说明。任务数据由可视察任务漫衍组成,通常非随机采样自更大的目的域内更宽的漫衍(浅灰色省略),该区域纷歧定是原始LM预训练域所包罗的区域之一——只管可能存在重叠。
我们将探讨对来自任务漫衍和领域漫衍的数据举行连续预培训的利益。我们研究了使预训练的LMs适应这些领域和任务的几种变化,总结在表10中。
我们的实验讲明,纵然是一个由数亿个参数组成的模型,也很难对单一文本事域的庞大性举行编码,更不用说对所有语言举行编码了。我们讲明,针对特定任务或小语料库对模型举行预训练可以带来显著的利益。我们的发现讲明,通过识别和使用与领域和任务相关的语料库来专门化模型的并行事情来增补越来越大的LMs上的事情可能是有价值的。
虽然我们的效果证明晰这些方法如何革新ROBERTA,一个强大的LM,但我们研究的方法足够通用,适用于任何预先训练的LM。我们的事情指向了许多未来的偏向,例如为TAPT更好地选择数据,有效地将大型预训练语言模型适应到遥远的领域,以及在适应之后构建可重用的语言模型。关注 人工智能学术前沿 回复 :acl045秒免费获取论文pdf文档,及项目源码ACL2020最佳论文提名奖2题目:深入于BLEU:重新评估自念头器翻译评估指标的评估摘要:自动指标是开发和评估机械翻译系统的基础。
判断自动怀抱尺度是否与人类评估的黄金尺度相一致不是一个简朴的问题。我们讲明,当前的怀抱尺度判断方法对用于评估的翻译很是敏感,尤其是存在异常值时,这通常会导致对怀抱有效性发生错误的自信结论。
最后,我们转向成对系统排名,开发一种在针对人类判断的自动怀抱下对性能革新举行阈值处置惩罚的方法,该方法可以量化I型和II型错误,即,可以接受的,显着的人类系统质量差异,以及显着的人为差异 被拒绝的人类差异。总之,这些发现讲明对机械翻译中的怀抱评估和系统性能评估的协议举行了革新。总体而言,本文增加了淘汰BLEU作为事实上的尺度怀抱尺度的理由,而取而代之的是使用CHRF,YISI-1或ESIM等其他怀抱尺度。
他们在评估履历革新方面更强大。可是,人工评估必须始终是黄金尺度,而且为了连续革新翻译,以在以前的事情上取得重大革新,所有自动怀抱尺度都市导致替代品不足。总而言之,我们的主要建议是:在评估指标时,请使用第4.2节中概述的技术在盘算Pearson s r之前除去异常值。在评估MT系统时,请停止使用BLEU或TER来评估MT,而应使用CHRF,YISI-1或ESIM。
停止使用评估指标的细微变化作为得出重要履历结论的唯一基础,并确保手动评估支持这些结论。关注 人工智能学术前沿 回复 :acl055秒免费获取论文pdf文档,及项目源码ACL2020最佳主题论文提名奖题目:我们怎样才气加速向“类人类”语言泛化的历程?摘要:本文形貌和品评了预训练前不确定的相同漫衍(PAID)评估范式,它已经成为权衡自然语言明白希望的中心工具。
该模式包罗三个阶段:(1)对任意巨细的语料库举行单词预测模型的预训练;(2)对代表分类任务的训练集举行微调(迁移学习);(3)评价测试集从训练集的漫衍一样。这种模式倾向于简朴,低偏差架构,,首先,可以处置惩罚大量的数据,第二,可以捕捉一个特定的数据集的细粒度的统计特性,无论这些属性可能会推广任务之外的数据集的例子。
这与人类,他们从比这个评估规范所青睐的系统少几个数量级的数据中学习语言,并以一致的方式归纳综合出新的任务。我们提倡用奖励体系结构的规范来增补或取代PAID,这些规范像人类一样快速而有力地归纳综合。我已经形貌了当前盛行的PretrainingAgnostic Identally Distributed范式,该范式选择的模型可以轻松地在无限量的数据上举行训练,而且擅长捕捉微调数据集中的任意统计模式。
只管这样的模型在应用法式中具有相当大的价值,但我主张建设一个带有排行榜的并行评估生态系统,如果有人能激励进步,从而奖励模型以类似于人的方式泛化的能力。类似人的归纳偏见将提高我们的模型从有限的数据中学习语言结构和新任务的能力,并使模型的泛化行为更切合人类的期望,从而淘汰了不遵循语言结构的肤浅启发式方法的吸引力以及普遍性 在反抗性示例中,从人的角度来看微不足道的输入更改效果以不希望的方式影响了网络的行为。关注 人工智能学术前沿 回复 :acl065秒免费获取论文pdf文档,及项目源码ACL2020最佳DEMO论文提名奖1题目:Torch结构:深层结构预测库摘要:关于NLP的结构化预测的文献形貌了富厚的漫衍和算法荟萃,包罗序列、分段、比对和树;然而,这些算法很难在深度学习框架中应用。
我们先容了Torch-Struct,一个用于结构化预测的库,旨在使用和集成向量化的、基于自动区分的框架。TorchStruct包罗广泛的概率结构荟萃,通过一个简朴而灵活的基于漫衍式的API会见,该API可以毗连到任何深度学习模型。
该库使用批处置惩罚的向量化操作,并使用自动区分发生可读、快速和可测试的代码。在内部,我们还包罗一些通用的优化,以提供交织算法的效率。实验讲明,相对于快速基线,性能有显著提高,案例研究证明晰该库的利益。
图1:凌驾1000个标志序列的二叉树漫衍。着色显示每个跨度的边际概率。Torch-Struct是NLP中常用CRF漫衍的优化荟萃,旨在与深度学习框架集成。
在未来,我们希望支持使用结构化模型的研究和生产应用法式。我们还相信,该库为通过概率API构建可解释性、控制和可视化的通用工具提供了坚实的基础。
最后,我们希望探索进一步的优化,使焦点算法与高度优化的神经网络组件竞争。关注 人工智能学术前沿 回复 :acl075秒免费获取论文pdf文档,及项目源码ACL2020最佳DEMO论文提名奖2题目:Prta:一个支持分析新闻宣传技术的系统摘要:2016年美国总统大选、英国脱欧、新冠肺炎疫情等近期事件,凸显了网络虚假信息的危害。已经有许多的研究集中在事实查证和虚假信息检测上。
然而,很少有人关注用于转达宣传信息的详细修辞和心理技巧。展现这些技术的使用可以资助提高媒体素养和批判性思维,并最终有助于限制假新闻和虚假信息运动的影响。
Prta :(Propaganda Persuasion Techniques Analyzer)允许用户通过突出宣传技术发生的跨度,定期浏览抓取的文章,并凭据其使用的宣传技术举行比力。该系统进一步陈诉有关这类技术使用的总体和恒久统计数据,或凭据用户凭据时间距离、关键字和/或媒体的政治倾向指定的过滤尺度。此外,它允许用户通过专用接口或API分析任何文本或URL。关注人工智能学术前沿 回复 :acl085秒免费获取论文pdf文档。
本文关键词:亚搏,体育,ACL2020,获奖,论文,集锦,「,5秒,获取,亚搏体育
本文来源:亚搏手机版app下载-www.sz-ccdp.com