你对数据科学家在典型的工作日做什么感兴趣吗?每个数据科学角色可能不同,但这五个人提供了洞察力,以帮助那些有兴趣确定一个数据科学家在一天的生活中实际上是什么样子。

几周前,我从我的LinkedIn连接中获得了关于数据科学家一生中典型的一天的反馈。答案是真正的压倒性的!当然,没有数据科学家的角色是一样的,这就是查询的原因。那么许多潜在的数据科学家有兴趣知道那些在另一边的人整天忙于什么,所以我认为有几个关系提供他们的洞察力可能是一个有用的努力。
接下来是我通过电子邮件和LinkedIn的消息从那些有兴趣提供他们的日常专业任务的几段很好的反馈。简短的每日摘要是完整的,没有编辑,允许报价为自己说话。
Andriy Burkov是位于魁北克市Gartner的全球ML团队负责人。
我典型的一天从早上九点开始,与我的团队长达15-30分钟的Webex会面:我的团队分布在印度(班加罗尔和金奈)一半,加拿大(魁北克市)一半。我们讨论项目的进展,并决定如何克服困难。
然后,我阅读我在晚上收到的电子邮件,并在必要时作出反应。之后,我开始了我目前正在从工作公告中提取工资的项目。我需要为每个我们支持的国家语言(约30个国家语言对)创建一对单独的模型。该过程包括倾倒某个部分国家语言的工作公告,聚集他们,然后得到训练实例的子集。然后我手动注释这些例子,并建立模型。我迭代构建/测试/添加数据/重建,直到测试错误足够低(〜98%)。
下午,我帮助我的团队成员通过测试当前真实数据的模型来改进他们的模型,找出误报/消极因素,并创建新的训练样例来解决问题。停止改进模型和部署生产的决定取决于项目。对于某些情况下,特别是面向用户的情况,我们需要一个非常低的误报率(小于1%):用户总是看到从他们的文本中提取某些元素是错误的,但并不总是表示缺乏提取。
当天下午17:30左右,科技新闻/博客追赶了30分钟。
Colleen Farrelly是位于迈阿密的Kaplan的数据科学家。
这里有一个关于我的一些背景,以及我一生中的一天是什么样的:
在一个人文与科学本科联合课程后,我在MD / PhD项目中转入了数据科学和机器学习,而我的日常项目通常是高度跨学科的。一些项目包括模拟流行病传播,利用产业心理学创建更好的人力资源模型,解剖数据获取低社会经济地位学生的风险群体。我工作中最好的部分是各种项目,每天都有新的挑战。
对我来说,典型的一天开始于上午8点左右,当时我正在追踪与机器学习和数据科学有关的社交媒体账户。上午8:30左右转入工作项目,下午4:30到下午5:00结束午餐休息。我大约有40%的时间花在研究和开发上,尤其关注数学(拓扑学),涉及到从开发和测试新算法到编写数学证明以简化数据问题的任何事情。有时,结果是保密的,并留在公司内(通过公司内的每月午餐和学习演示)。其他时候,我可以出版或出席外部会议。
我的另外30%的时间花费在我公司的各个部门之间建立关系,寻找新的项目,这些项目经常发现相关操作程序的问题,与数据捕获有关的问题,或者以前的项目之间的联系,提供更全面的操作视图。这可能是工作中最关键的方面之一。我遇到的人经常会提出他们所看到的问题,或者提及一个销售/学生成果/操作的预测模型是多么的整洁,我发现它为下一步的对话和最佳实践建议打开了大门。作为一名数据科学家,与广泛的利益相关者进行交流非常重要,这有助于我将机器学习算法的解释简化为非专业人员。
我剩余的30%时间通常花在数据分析和写作结果上。这包括预测模型,关键指标的预测模型以及给定数据集中子组和趋势的数据挖掘。每个项目都是独一无二的,我试图让项目和初步发现指导我接下来的步骤。我主要将R和Tableau用于项目,但Python,Matlab和SAS偶尔会对特定的包或R&D请求有所帮助。我通常可以回收代码,但是每个问题在数学方面都有自己的假设和数据限制。项目通常可以使用拓扑结构,实际分析和图论的工具进行简化,这样可以加快项目速度,并允许使用现有的包,而不是从头开始编写代码。作为大公司唯一的数据科学家,
Marco Michelangeli是Hopenly的数据科学家,居住在意大利雷焦艾米利亚。
当马修让我写几段关于我作为数据科学家的“典型”日子的时候,我开始思考我的日常工作和日常工作,但后来我停下脚步,意识到:“我并没有例行公事!这是做数据科学家最棒的事情!每一天都不一样,一个新的挑战出现了,一个新的问题在那里等待解决。我不只是谈论编码,数学和统计,而是谈论商业世界的复杂性:我经常与商界人士和客户讨论,以了解他们的真实需求,我帮助营销与我们的产品的内容,我参加会议新的ETL工作流程和架构设计,以实现新产品; 我甚至发现自己筛选数据科学家简历。
作为一名数据科学家意味着变得灵活,思想开放,随时准备解决问题和接受复杂性,但不要误解我的观点:我花了超过80%的时间来清理数据!如果你刚开始从事数据科学的工作,你可能会遇到类似的帖子:“在数据科学中掌握R和Python的10个技巧”或“最好的深度学习库”,所以我不会给你更多的技术建议,我唯一能说的来自专业的数据科学宣言,它是:“数据科学是关于解决问题,而不是建立模型”。这意味着如果你只需要一个SQL查询就可以解决客户需求,那就做吧!不要在复杂的机器学习模型中挫败自己:简单,有帮助。
Ajay Orhi是新德里Kogentix公司的数据科学家。他还编写了两本关于R的书,一本关于Python的书。
我的典型的一天开始于上午9点,打了一个scrum电话。我们的项目工作方法是把任务分成两个星期的目标或冲刺。这基本上是软件的敏捷开发方法,与CRISP-DM或KDD方法不同。
有一点上下文是解释我们为什么这样做的必要条件。我目前的角色是在东南亚银行实施大数据分析的团队中的数据科学家。我们拥有数据工程师,管理员/基础设施人员,数据科学家,当然还有团队中的客户参与经理,以满足项目的每个特定需求。我目前的组织是名叫Kogentix的AI创业公司,不仅拥有大数据服务,而且还有一个名为AMP的大数据产品这就像PySpark上的GUI一样,并试图自动化大数据。AMP很酷,我很快就会来。这导致我的创业公司关注尽可能多的客户,以及测试和实施我们的大数据产品。这意味着在我们的客户合约中取得成功 - 我们的客户之一是上个月入围奖项。我听起来太过市场导向 - 你打赌我是。数据科学家所做的工作通常对客户有战略意义。
我每天做什么?这可能是很多事情 - 包括不只是电子邮件和会议。我可以使用Hive来抽取数据,使用它来合并数据(或使用Impala),我可以使用PySpark(Mllib)来创建流失模型,或者使用k来表示聚类。我可以拉取Excel文件中的数据来进行总结,并可以进行数据可视化。有些日子,我使用一些机器学习软件包在R原型。我还帮助测试了我们的大数据分析产品AMP,并与该团队合作,对产品进行了功能增强(如果您原谅这个问题 - 因为该产品是用于功能增强的)。当我编写大数据时,我可以使用Hadoop HUE的GUI,或者我可以使用命令行编程,包括批量提交代码。
在此之前,我在印度第三大软件公司Wipro工作我的角色完全相反。我们的客户是印度财政部(处理税收的部门)。初级数据科学家使用RDBMS中的SQL来抽取数据(由于遗留问题),我对结果进行了验证。然后将报告发送给各个客户端。我们还特别使用SAS Enterprise Miner作为概念测试,以显示印度进出口的时间序列预测。在为联邦政府工作,为私营部门工作的时间表是非常缓慢和富有理想的。我记得当一位官员对我们正在执行机器学习感到惊讶,为什么政府不早些使用它。但SAS / VA(用于仪表板),
在此之前的十年里,我运行了Decisionstats.com。我写博客,卖广告(不太好),写了3本数据科学着作,编写了Programmable Web,StatisticsViews的文章,做了一些数据咨询。我甚至为KDnuggets写了几篇文章。你可以在这里看到我的个人资料https://en.m.wikipedia.org/wiki/Ajay_OhriDecisionstats。com。我写博客,卖广告(不太好),写了3本数据科学着作,编写了Programmable Web,StatisticsViews的文章,做了一些数据咨询。我甚至为KDnuggets写了几篇文章。你可以在这里看到我的个人资料
Eric Weber是LinkedIn的高级数据科学家,位于加州桑尼维尔。
LinkedIn上的一天。那么我想我可以说没有“典型”的一天。在阅读时请记住这一点!
首先,关于我和我的主要责任。我很幸运,在我们的LinkedIn Learning团队工作,这是该组织最新的数据科学团队。具体而言,我支持LinkedIn Learning的企业级销售。那是什么意思?想想这样:我们使用数据,模型和分析来决定如何有效销售。当然,我们如何做到这一点的细节是内部的,但您可以想象我们想回答以下问题:我们试图销售哪些账户?我们努力了解是什么使某些帐户从其他帐户中脱颖而出。
其次,日常的一个关键方面是沟通。我已经在LinkedIn上撰写了大量的文章,但是我相信与队友和业务合作伙伴的有效沟通是一位伟大数据科学家的决定性特征。在典型的日子里,这需要在适当的时候向直属团队成员,管理人员和高级领导提供关键项目的最新情况。我觉得这个工作的这个方面令人着迷的一件事是简洁的需要。像LinkedIn这样的公司有着大量的内部沟通渠道,所以所有的事情都必须精炼成清晰简洁的结果/谈话要点。