脸书 南粤风采36选7发布‘Dynabench’,一种用于机器学习系统的动态基准测试平台

0
1510
资源: //ai.facebook.com/blog/dynabench-rethinking-ai-benchmarking

脸书 南粤风采36选7发布 Dynabench,这是一个雄心勃勃的新研究平台,用于动态数据收集和基准测试。该平台是人工智能基准测试中的第一个平台,动态基准测试是在多个回合中进行的。它通过测试机器学习系统并要求对抗性的人类注释者破解它来工作。

尽管南粤风采36选7研究基准已经取得了重大进展- MNIST to 影像网 to ,我们离拥有真正能够理解自然语言的机器还很远。 Dynabench使用人员和模型共同创建新的具有挑战性的数据集,以更准确地测量NLP模型。此过程显示了当前模型中存在的差距,从而可以在循环中训练下一代南粤风采36选7模型。它还可以衡量人们在动态环境而不是静态基准中如何轻易愚弄南粤风采36选7模型。

//ai.facebook.com/blog/dynabench-rethinking-ai-benchmarking

Dynabench使用一种称为动态对抗数据收集的新颖程序来改善当前的南粤风采36选7标杆实践。这种评估ML系统的鲁棒性(或脆性)的新方法超越了传统的训练集范式。

借助Dynabench中的所有这些基准创新,我们可以希望,对于未来的南粤风采36选7系统而言,最好的做法是减少错误,减少有害偏差并在实际应用中更有用。

资源: //ai.facebook.com/blog/dynabench-rethinking-ai-benchmarking

网站: //dynabench.org/

相关论文: //arxiv.org/pdf/1910.14599.pdf

相关Github: //github.com/facebookresearch/anli

广告deeplearning.ai与一名学习者的深度学习专业化横幅,戴着眼镜在笔记本电脑上。

发表评论

请输入您的评论!
请在这里输入您的名字

该网站使用Akismet减少垃圾邮件。 了解如何处理您的评论数据.