谷歌 已经开源了一个名为mT5的模型,该模型是Google T5模型的多语言版本。该模型在包含101种以上语言的数据集上进行了训练( mC4语料库 ),包含3亿到130亿个参数(用于进行预测的内部变量)。据说它有足够的能力学习100多种语言,而不会遇到任何明显的冲突。
自然语言处理(NLP)管道目前利用转移学习。此方法涉及在对下游兴趣任务进行微调之前,对数据丰富的任务进行模型预训练。这些T5模型使NLP专业人员能够快速完成各种任务,而无需预先进行培训。但是,大多数这些语言模型都是完全接受英语培训的,这限制了它们在不讲英语的世界人群中的使用。为了改善模型的功能和服务,NLP社区已经开发了以多种语言(包括mBERT和mBART)预先训练的多语言模型。

mT5的发布
T5的通用文本到文本格式基于大规模实证研究的见解。谷歌’多语言MT5在涵盖101种语言的MC4上进行了培训。 MC4是C4的一种特殊构建的多语言子集,其中包含约750GB的显式英语文本,这些文本来自公共Common Crawl存储库。
研究人员将mT5-XXL模型与相关模型(例如mBERT,XLM和XLM-R)进行了比较,以进行评估。据说,mT5-XXL模型在Xtreme多语言基准测试的所有任务上都达到了SOTA性能。这表明T5的优势适用于多语言模型环境,并且可以在多个标准集上实现强大的性能。这个新模型还表明,预培训可以为任何复杂的技术应用提供可行的替代方案。
的GitHub: //github.com/google-research/multilingual-t5
资源: //arxiv.org/pdf/2010.11934.pdf