设为首页加入收藏

微信关注
官方微信号:天下财经网
加关注获取每日精选资讯
搜公众号“天下财经网”即可,欢迎加入!
广告服务联系我们网站地图

如何让你的数据科学家和数据工程师同舟共济

日期:2022-01-27 23:52:39 来源:

在开发机器学习模型的缓慢过程中,数据科学家和数据工程师需要一起工作,但他们经常出于交叉目的而工作。听起来很荒唐,我已经看到模型投入生产需要几个月的时间,因为数据科学家正在等待数据工程师构建适合该模型的生产系统,而数据工程师正在等待数据科学家构建一个可以满足该条件的模型。与生产系统一起工作。

VentureBeat的上一篇文章报道说,87%的机器学习项目没有将其投入生产,而数据问题和缺乏协作的综合因素是主要因素。在协作方面,数据工程师与数据科学家之间的紧张关系以及他们之间的合作方式可能导致不必要的挫败感和延迟。虽然团队协作和同情心的建立可以缓解这些紧张关系,但采用一些正在发展的MLOps技术可以从根本上帮助缓解问题。

解决问题

在深入研究解决方案之前,让我们更详细地介绍问题。科学家和工程师(数据及其他)一直像猫和狗,油和水一样。通过简单的网络搜索“科学家与工程师”,您将引起一场冗长的辩论,讨论哪个团体更负盛名。工程师承担了结构,操作和维护的任务,因此他们专注于最简单,最有效和最可靠的系统。另一方面,科学家的任务是尽一切努力来构建最准确的模型,因此他们希望访问所有数据,并希望以独特,复杂的方式对其进行操作。

我发现不固定差异,而是发现它们既具有巨大的价值,又思考如何才能最大程度地利用他们的各种才能,会更有生产力。通过专注于统一数据科学家和数据工程师的事情-致力于及时,高质量的信息和精心设计的系统-双方可以营造更加协作的环境。通过了解彼此的痛点,两个团队可以建立同理心和理解,从而使合作更加轻松。还有一些新兴的工具和系统可以帮助弥合这两个阵营之间的鸿沟,并帮助他们在中间更轻松地相遇。

多播

MLOps是一个新兴领域,将DevOps实践的思想和原则应用于数据科学和机器学习生态系统。它减轻了数据工程师的构建和维护负担,同时为数据科学家提供了灵活性和自由度。这是一个双赢的解决方案。让我们看一些常见的问题,以及为更有效地解决这些问题而出现的工具。

模型编排。试图将模型投入生产时的第一个主要障碍是部署:在何处构建模型,如何托管模型以及如何管理模型。这在很大程度上是一个工程问题,因此,当您有一组数据科学家和数据工程师时,通常属于数据工程师。

构建该系统需要花费数周甚至数月的时间,这是数据或ML工程师可能花费的时间来改善数据流或改善模型。模型编排平台标准化了模型部署框架,并帮助使这一步骤变得更加容易。尽管Facebook之类的公司可以在FBLearner之类的平台上投入资源来处理模型编排,但对于小型或新兴公司而言,这却不太可行。幸运的是,开源系统已经开始出现来处理该过程,即MLFlow和KubeFlow。这两个系统都使用容器化来帮助管理模型部署的基础架构方面。

功能商店。从实验室获取模型到生产的第二大障碍在于数据。通常,使用存储在数据仓库中但使用生产数据库中的数据查询的历史数据来训练模型。这些系统之间的差异会导致模型执行不佳或根本无法执行,并且通常需要大量的数据工程工作才能在生产数据库中重新实现。

我个人花费了数周的时间来构建和制作那些从未在生产中使用过的重要功能的原型,因为数据工程师没有足够的带宽来进行生产。功能存储或专门为支持机器学习模型的训练和生产而构建的数据存储,正在通过确保实验室中内置的数据和功能可立即投入生产来缓解这一问题。数据科学家可以放心地建立模型,并且数据工程师不必担心两个不同的系统完美地保持一致。像Uber和Airbnb这样的大公司已经建立了自己的功能商店(分别是Michelangelo和ZipLine),但是已经出现了出售预建解决方案的供应商。例如,逻辑时钟为其Hopsworks平台提供功能存储。

DataOps。没有任何事情像深夜翻页那样,因为您的模型行为异常。在简要检查了模型服务之后,您将得出不可避免的结论:数据已发生了某些变化。

我对以下对话的看法比我认可的要多得多:

数据工程师:“您的模型抛出错误。为什么会坏?”

数据科学家:“不是,数据流坏了,需要修复。”

数据工程师:“好的,让我知道哪个数据流,我可以修复它。”

数据科学家:“我不知道问题出在哪里,只存在一个问题。”

找到问题就像在大海捞针。幸运的是,新的框架和工具已经到位,可以对数据和数据源进行监视和测试,并可以节省宝贵的时间。寄予厚望是这些新兴工具之一,它们可以改善数据库的构建,记录和监视方式。Databand.ai是进入数据管道监视空间的另一家公司;事实上,该公司在这里发表了一篇很棒的博客文章,其中更详细地探讨了传统管道监控解决方案为何不适用于数据工程和数据科学的原因。

结论

通过使用减少请求复杂性的工具,以及通过增加数据科学家与数据工程师之间的同理心和信任,可以使数据科学家能够交付数据,而不会给数据工程师带来过多负担。两个团队都可以专注于自己的长处和对工作的享受,而不是互相争斗。这些工具可以帮助将好斗的关系变成一种协作性的关系,每个人最终都会感到高兴。

免责声明:新闻资讯来源于合作媒体等,不代表本网观点,仅供参考,并不构成投资建议,风险自担。如涉版权,联系处理。

官方微信