霍罗沃德: 优步’s Open Source Distributed 深度学习 Framework

0
3352
Source: //github.com/horovod/horovod

‘Horovod’是由Uber创建的开源分布式深度学习框架’的AI团队。该框架用于TensorFlow,Keras,PyTorch和Apache MXNet中的应用程序。

目的‘Horovod’是为了使分布式深度学习变得快速且容易,从而采用单GPU训练脚本并将其成功扩展以并行地跨多个GPU进行训练。这有两个条件:

  1. 为了使程序分布式,必须对程序进行多少更改,并且运行起来有多容易?
  2. 它可以在分布式模式下运行多少速度?

请参阅以下图表,该图表代表在128个服务器上完成的基准测试,这些服务器具有4个Pascal GPU,每个GPU均通过支持RoCE的25 Gbit / s网络连接:

广告Coursera Plus标语,包含约翰·霍普金斯大学,谷歌和密歇根大学的课程,突出显示数据科学职业发展的内容
//github.com/horovod/horovod

Github: //github.com/horovod/horovod

纸: //arxiv.org/abs/1802.05799

说明文件: //horovod.readthedocs.io/en/latest/

安装:

Install the horovod pip package.

要在CPU上运行:

$ pip install horovod

要在具有NCCL的GPU上运行:

$ HOROVOD_GPU_ALLREDUCE=NCCL HOROVOD_GPU_BROADCAST=NCCL pip install horovod

霍罗沃德 Benchmarks

Source: //github.com/horovod/horovod
广告

发表评论

请输入您的评论!
请在这里输入您的名字

该网站使用Akismet减少垃圾邮件。 了解如何处理您的评论数据.