谷歌 AI开源mT5:经过mC4语料库训练的多语言模型(101种语言数据集)

0
1087
人物矢量由pikisuperstar创建-www.freepik.com

谷歌 已经开源了一个名为mT5的模型,该模型是Google T5模型的多语言版本。该模型在包含101种以上语言的数据集上进行了训练( mC4语料库 ),包含3亿到130亿个参数(用于进行预测的内部变量)。据说它有足够的能力学习100多种语言,而不会遇到任何明显的冲突。

自然语言处理(NLP)管道目前利用转移学习。此方法涉及在对下游兴趣任务进行微调之前,对数据丰富的任务进行模型预训练。这些T5模型使NLP专业人员能够快速完成各种任务,而无需预先进行培训。但是,大多数这些语言模型都是完全接受英语培训的,这限制了它们在不讲英语的世界人群中的使用。为了改善模型的功能和服务,NLP社区已经开发了以多种语言(包括mBERT和mBART)预先训练的多语言模型。 

//arxiv.org/pdf/2010.11934.pdf

mT5的发布

广告 Coursera Plus标语,包含约翰·霍普金斯大学,谷歌和密歇根大学的课程,突出显示数据科学职业发展的内容

T5的通用文本到文本格式基于大规模实证研究的见解。谷歌’多语言MT5在涵盖101种语言的MC4上进行了培训。 MC4是C4的一种特殊构建的多语言子集,其中包含约750GB的显式英语文本,这些文本来自公共Common Crawl存储库。

研究人员将mT5-XXL模型与相关模型(例如mBERT,XLM和XLM-R)进行了比较,以进行评估。据说,mT5-XXL模型在Xtreme多语言基准测试的所有任务上都达到了SOTA性能。这表明T5的优势适用于多语言模型环境,并且可以在多个标准集上实现强大的性能。这个新模型还表明,预培训可以为任何复杂的技术应用提供可行的替代方案。 

的GitHub: //github.com/google-research/multilingual-t5

资源:   //arxiv.org/pdf/2010.11934.pdf


广告

发表评论

请输入您的评论!
请在这里输入您的名字

该网站使用Akismet减少垃圾邮件。 了解如何处理您的评论数据.