领英推出Pensieve:使用受监督的深度学习技术的嵌入式功能平台

0
1812
资源: //engineering.linkedin.com/blog/2020/pensieve

领英人才解决方案和职业团队旨在为寻求工作的成员和雇主建立有效的市场。 领英通过将成员匹配到空缺职位来实现此目的。有多种产品和建议模块可用于 领英职位领英招聘。 AI模型与所有这些产品一起使用可产生最终结果。 

通过利用监督的深度学习技术来创建重要功能,以便对模型进行训练以产生实体嵌入。‘表征学习’ or ‘Feature learning’(通过深度学习算法)已在LinkedIn平台上建立了最先进的性能。由于网络体系结构已开始使用数亿个参数,因此它在计算中的使用正在加速。因此,没有严格的SLA,实体嵌入推断的负担就从请求时间计算推到了近线(或流)预计算。

借助这项技术,LinkedIn引入了Pensieve,这是一种嵌入功能平台,可以使用受监督的深度学习技术预先计算并发布实体嵌入。在人才解决方案和职业生涯中,排名模型将嵌入用于对延迟敏感的应用程序。

广告Coursera Plus标语,包含约翰·霍普金斯大学,谷歌和密歇根大学的课程,突出显示数据科学职业发展的内容

Pensieve平台可分为三个支柱。

  • 离线培训管道:基础架构简化了培训数据生成和分布式培训。建模人员可以专注于在实践中应用深度学习理论。当将培训扩展到数亿个实例时,该团队专注于敏捷实验。我们可以通过几行配置代码,将框架特征市场中任何稀疏特征与数百万个观测值快速合并。同时,Tensorflow On Yarn(TonY)启用了分布式培训。
  • Pensieve建模:该团队训练了神经网络,以获取有关实体的稀疏特征并将其有效编码为低维空间中的语义嵌入。他们几乎所有的迭代周期都花在了应用研究上,以提高嵌入质量。
  • 嵌入服务框架:将神经网络打包为在训练后嵌入服务。团队为A / B测试建立了并行的离线和近线嵌入式操作管道’的多模型计算。这些管道将预先计算的嵌入发布到我们的Feature Marketplace,以供其他AI模型使用。
//engineering.linkedin.com/blog/2020/pensieve

模型部署

最终的训练模型分为两个子图:

1.成员金字塔

2.工作金字塔。 

子图被打包,版本控制并分发到服务框架中。这样做是为了独立地预先计算成员和职位发布的嵌入。

系统架构

以下是系统体系结构设计背后的动机。

  • 高效的输出:实体嵌入的数量被最小化,并且’是下游系统必不可少的问题。通过将嵌入的多个版本分批处理到一条消息中,我们可以最大程度地减少编写工作。同样,对实体的许多数据更新不会更改实体嵌入值。 
  • 实验速度:快速测试新嵌入模型的能力对于提高生产率至关重要。嵌入模型准备就绪后,只需一行更改即可提供新的嵌入版本。

由于其简单的表达性API,Apache Beam在Samza中用于在管道附近进行嵌入。

系统优化

必须充分缩放每个近线系统,以处理传入的消息速率。导致消息处理延迟的两个主要因素如下。 

1.处理器未正确调整以跟上峰值传入消息速率。

 2.下游依赖性。

对于第一个问题,实施了以下方法。

  • 通过增加作业容器的线程池大小,跨不同任务增加了运行循环阶段的并行化。
  • JVM堆大小增加,并且堆大小调整被禁用以分别通过GC和堆扩展来减少JVM暂停。

对于第二个问题,团队设计了一个 多数据中心策略 解决下游依赖性故障。

资源: //engineering.linkedin.com/blog/2020/pensieve

广告

发表评论

请输入您的评论!
请在这里输入您的名字

该网站使用Akismet减少垃圾邮件。 了解如何处理您的评论数据.