2016年数据科学薪酬大盘点


(xmnz) #1

这是O’Reilly关于数据科学职位薪酬的第四次研究。本次研究的983个样本来自45个国家以及美国45个州的不同行业。通过本次调查的64个问题,我们研究了数据科学家、分析师与工程师所要使用的工具,工作涉及的任务以及薪酬的内容。

![](data:image/svg+xml;utf8,)

主要发现包括:

  • Python和Spark是对薪水贡献最大的两大工具。

  • 在那些写代码的人中,写代码最多的人最高。

  • SQL,Excel,R和Python是最常用的工具。

  • 参加会议越多,赚得更多。

  • 做同样的事情,女人比男人的工资少。

  • 使用工具方面薪资差别最显着在于,那些主要使用Excel,SQL和少量关闭源工具的人员以及使用更多开源工具并花费更多时间编码的人员之间。

  • R用于各个部门:即使是那些不编程太多或者使用很多开源工具的人,也会使用R.

  • 年轻的一批大量使用Pythond的数据科学家,数据分析师比起原来使用大量各种工具的人,获得的薪水更高。

简介

通过对比过去四年的数据,我们发现很多的关键变量例如平均工资、核心技能以及工具间使用的相关性基本没有变化。在本年度的分析中,我们在2015年9月到2016年6月之间收集了来自983位数据专业人士的数据。在这个报告中,我们尝试着用不同的方法对研究结果进行分析,着重对被访者进行分类。为了提高结论的准确性,我们优化了线性模型,在经济的地理变异上应用了平方根变化以及公开可用的信息资源。同时,该研究也提出了一些新问题,尤其是一些数据相关的任务以及薪酬方面的变化。

薪酬,研究的重点

研究表明,所有研究对象的薪酬中位数是87000美元。这个数字比前一年的91000美元略低了一些。但是这个差别是由于研究对象的基本统计变量差异造成的,今年的样本有更多非美国的被调查者,更多30岁及以下的被调查者。五分之三的样本来自于美国,他们的薪酬中位数为106000美元。

理解样本的四分位距

通过调查中的一系列问题,我们可以得出被调查者薪酬的中位数。中位数固然重要,但是却不能反应样本的范围。因此,我们也研究了样本的四分位距,也就是样本中间50%数据的范围。该范围并不是一个置信区间,也不是以标准差为基础的。

举个例子,美国被调查者的四分位距是80000美元到138000美元,意味着四分之一的美国被调查者的薪酬低于80000美元,四分之一的高于138000美元。如果要看的更仔细些,与美国东北部与中西部相比,西北部的薪酬中位数更高(105000美元对比98000美元),但是东北部第三四分位数为133000美元,中西部为138000美元。这表明中西部薪酬的差距要更大,对于最挣钱的人来说,中西部的人甚至要比东北部的更高。

薪酬是怎样变化的

我们也搜集了过去三年薪酬变化的数据。一半的被调查者表示有20%的上升,12%的被调查者则表示薪酬上升了一倍。我么尝试着建立薪酬变化与其他变量之间的模型,但是很可惜的是,R2只有0.221。很多在薪酬回归模型中的重要特征也成为了预测薪酬变化的因素:Spark/Unix、较长的会议时间、较长的编码时间以及建立原始模型,上述的所有因素都预测了更高的薪酬增长。而另一方面,当我们使用Excel时,性别差异与在老公司工作预测了更低的薪酬增长。

评估薪水

某个特定系数对最终薪酬估计的影响依赖于其他的系数:薪酬越高,每个系数的影响就越大。举个例子,在薪酬更高国家的初级数据科学家与高级建筑师之间的薪酬差异要比薪酬更低国家的要大。

![](data:image/svg+xml;utf8,)

影响薪酬的因素:回归模型

相较于2015年较为基础、简洁的线性模型,我们在今年的报告中做了两处改变:1)外部地理数据(美国各州以及全国的GDP);2)平方根变换。我们的模型解释了薪酬样本四分之三的方差(R2=0.747),大致一半的方差跟地理位置以及经验有关。考虑到很多重要的因素没有办法通过调查得出,因此有一部分方差无法得到合理的解释也是正常的。

地理因素的影响

地理因素对于薪水有着很大的影响,但是在本次的样本中并不能得到精确的体现。例如,如果一个国家只有一两个被调查者,那就无法得出改国家的系数。因此,我们的系数采用了更大的范围,例如以亚洲、东欧等区域为系数,尽管这些区域内的各个国家之间的薪水仍有差距。

为了解决上述的问题,我们使用了这些国家或者美国各州公开的人均GDP数据。需要注意的是,我们使用了州或者国家级别的人均GDP数据,因此,该模型无法得出小区域的相应数据。

在使用人均GDP数据之前,有两个例外。华盛顿特区的人均GDP是181000美元,远高于相邻的弗吉尼亚州(57000美元)以及马里兰州(60000美元)。事实上,马里兰州以及弗吉尼亚州很多的数据科学岗位都位于华盛顿都会区。使用181000美元作为华盛顿特区的数据将会高估特区的薪酬水平,因此我们用马里兰州的60000美元作为华盛顿特区的数据。

![](data:image/svg+xml;utf8,)

![](data:image/svg+xml;utf8,)

另一个例外是加州。在我们做过的所有薪酬调查中,加州在所有的州或者国家中拥有最高的薪酬中位数,尽管它的人均GDP只有62000美元(低于九个州以及瑞士、挪威两个国家)。这个不正常的数据其实是由于旧金山湾区的80000-90000美元的人均GDP数据导致的。作为一个主要的科技中心,湾区从某种程度上来说拔高了加州的数据,因此我们将用70000美元作为加州的数据。

性别因素

男性与女性的薪酬中位数有10000美元的差距,保持所有的变量一致——即使是同样的角色和技能,女人相对比男人的工资低。

年龄、经验、行业因素

经验和年龄是影响薪酬的两大重要因素。经验3.8的系数意味着经验多一年,平均薪酬就上涨2000到2500美元。从年龄上来看,最大的差别来自于20岁出头到29岁,31-65岁以及65岁以上的数据也有很大的差异。

我们也要求被调查者从1到5给自己的谈判能力打一个分,结果显示,那些给较高自我评价的人倾向于有更高的薪酬。那些打分1与打分5的数据科学家的薪酬差预计将达到10000到15000美元。

同时,考虑到工作与生活的平衡性,数据显示,如果你的工作超过了60个小时,实际上薪酬将呈现下降的趋势。

![](data:image/svg+xml;utf8,)

![](data:image/svg+xml;utf8,)

![](data:image/svg+xml;utf8,)

![](data:image/svg+xml;utf8,)

![](data:image/svg+xml;utf8,)

![](data:image/svg+xml;utf8,)

![](data:image/svg+xml;utf8,)

![](data:image/svg+xml;utf8,)

你怎样支配你的时间

任务的重要性

我们通过以下四个不同类型的问题去调查被调查者的工作类型。

● 与具体工作的相关度

● 职称

● 开会的时间

● 编码的时间

对于每一个问题,被调查者的选项都是三个级别:没有参与,少量参与,大量参与

对薪酬影响最大的工作是开发原始模型。大量参与该项工作的被调查者薪酬平均有7400美元的增加,少量参与的甚至也有4.4的系数。

职位的相关性

相较于具体的工作,职称是更好的薪酬预测变量。选择“高级管理层”的被调查者系数为20.2,“具体工作兼顾管理”的系数为9.7,“商务问题分析”的系数为1.5/6.7,“与公司外人员谈判”的系数为5.4。

![](data:image/svg+xml;utf8,)

![](data:image/svg+xml;utf8,)

![](data:image/svg+xml;utf8,)

开会所花的时间

开会所花的时间越多,薪酬高的可能性就越大。当然,两者没有必然的联系。如果你没有任何其他的改变,单单安排了很多会议的时间,你的薪酬是不可能上涨的。

编程的工作角色

那些每周编程4-8小时的人拥有最高的薪酬中位数,而从来不编码的人则最低。值得注意的是,相较于去年的20%,今年只有8%的样本表示他们从来不编程。可以看到,编程很明显是成为数据科学家必不可少的技能。

![](data:image/svg+xml;utf8,)

工具选择的重要性

最受欢迎的工具

调查显示,最受欢迎的工具是Excel和SQL(69%),接下来是R(57%)以及Python(54%)。超过90%的被调查者表示会花时间在编码上,80%至少会Python、R以及Java中的一种,8%的人会使用全部三种语言。上述的常见工具在模型中都转化为了独立系数,Python、JavaScript、Excel的系数分别为+4.6、-2.2、-7.4。对于其他不太常见的工具,我们先进行分类,再进行分析。拥有最大系数的集群是Spark以及Unix,每个工具的系数为+3.9。第二高的集群包括了Tableau, Teradata, Netezza, Microstrategy, Aster Data以及Jaspersoft,其系数为+2.4。其他的三个拥有较大系数的集群基本上都是开源的数据挖掘工具。

薪酬以及工具选择的顺序

在下面的工具序列表中,第二个工具往往被使用第一个工具的人所使用,而且每个步骤序列当中的薪酬差别都很大。如果你学会了序列中的第一个工具,不妨考虑开始学习第二个工具。

![](data:image/svg+xml;utf8,)

![](data:image/svg+xml;utf8,)

![](data:image/svg+xml;utf8,)

![](data:image/svg+xml;utf8,)

![](data:image/svg+xml;utf8,)

![](data:image/svg+xml;utf8,)

![](data:image/svg+xml;utf8,)

![](data:image/svg+xml;utf8,)

工具以及工作之间的关系:

从不同的样本群体考虑

数据专业人士并不能一概地视为同一群体。尽管根据职称加以区分很方便,但是根据所使用的工具以及所做的工作加以区分更加严谨。因此,我们根据这样的分类,将所有的被调查者分成了四个群体。这四个群体并不是均分的,对应的比例分别为29%、31%、23%以及17%。

![](data:image/svg+xml;utf8,)

操作系统

在开源集群的工具中,常见的工具为Linux, Python, Spark, Hadoop以及Java。在闭源集群的工具中,常见的工具为Windows, Excel, Visual Basic以及MS SQL Server。这样的分类在进行被调查者分类时也可以看到,在看了下表的操作系统分类后我们会更清晰。

![](data:image/svg+xml;utf8,)

![](data:image/svg+xml;utf8,)

我们也通过一系列任务分析了第1集群以及第2集群之间的区别。下表的百分比是参与到上述任务的被调查者比例。

![](data:image/svg+xml;utf8,)

对于上述的所有任务,集群3与4都拥有较高的比例。

总结

我们在本文使用的预测薪酬以及相关变量之间的回归模型并没有探讨他们的关系是怎样得出的,或者他们是不是有直接的相关关系。例如,一个人在经费充足的公司工作,该公司可以负担较高的薪酬以及购买昂贵的工具,但这并不意味着员工的高薪是由这些工具选择所驱动的。

当然,薪酬的高低也并不是如此简单。当某一项工具成为行业标准时,雇主就会希望应聘者具有该项能力,当你不具备这项技能时,你找到好工作的可能性就会大打折扣。如果你应聘的工作有明确的对某项技能的要求,同时拥有这项技能的人倾向于拥有较高的薪酬,那么就意味着雇主不得不花费更多的钱来雇佣这些人。

上述的这些信息不只是应聘者需要关注,企业的领导者也需要考虑。领导者不应该只考虑相关软件或者工具的成本,同时应该考虑雇佣的人力成本。我们希望本文能够在某种程度上帮助领导者做出正确的决策。

请在公众号 “数据小老虎” 后台回复 “面经” 获取下载链接。

![](data:image/svg+xml;utf8,)