大数据文摘出品 来源:medium 编译:赵吉克 2018年medium上一篇博文分析了数据科学家最需要的技能,那篇文章引起了很大的反响,在medium上有超过11000次点赞,并被翻译成几种语言,成为了2018年11月KD Nuggets最受欢迎的文章。 2018年文章链接: https://towardsdatascience.com/the-most-in-demand-skills-for-data-scientists-4a4a8db896db 一年多过去了,2019的作者也发布了最新的分析,让我们看看有什么变化。 2018年的文章考察了对统计和沟通交流等一般技能的需求以及对Python和R等技术的需求。软件技术的变化一定快于一般技能需求上的变化,所以在本更新中只包括技术部分。 我们搜索了SimplyHired、Indeed、Monster和LinkedIn以查看在美工作的列表中哪些关键词和“数据科学家”共同出现。这一次,我们决定用Request和Beautiful Soup包来获取工作列表,而不是手工搜索。 事实证明,LinkedIn的爬取要困难得多,因为查看工作的列表的准确数字需要身份验证。我决定使用Selenium进行无头浏览。2019年9月,美国最高法院对LinkedIn做出了判决,允许其数据被爬取。尽管如此,在几次抓取尝试后,还是无法访问账户,这个问题可能源于刷新率限制。 不管怎么说,微软拥有LinkedIn,Randstad Holding拥有Monster, Recruit Holdings拥有Indeed和SimplyHired。 无论如何,LinkedIn的数据可能无法提供从去年到今年的苹果公司职位对比。今年夏天,LinkedIn的一些技术职位搜索词每周都会出现大幅波动。这可能是由于他们试图通过使用自然语言处理来衡量搜索目的,因而对他们的搜索结果算法进行了实验。相比之下,另外三个搜索网站在过去两年中出现的“数据科学家”相关职位列表数量则相对接近。 基于这些原因,LinkedIn被排除在本文2019年和2018年的分析之外。 对于每个工作搜索网站,我们计算了该网站中出现的每个关键词在所有数据科学家工作列表中所占的百分比。然后,在三个站点上为每个关键字取这些百分比的平均值。 同时手动调查了新的搜索词以及那些看起来很有前途的词。在2019年,没有新的搜索词达到占全体5%的占有水平,这是下述结果中使用的截断指标。