一貫しないデータサイエンスの定義と、より的確な職種名とは
画像出典 ( 左から下の順に ): 1) リンク、smoothgroover22 所有、ライセンス、クロップ加工の上利用 2) リンク、NazWeb 所有、ライセンス、3) リンク、BalticServers.com所有、 ライセンス 4) リンク、Wallpoper 所有 5) リンク、The Opte Project 所有, ライセンス, クロップ加工の上利用
あなたは本当のところどんな仕事をしていますか?
映画『リストラ・マン』の中に印象深いシーンがあります。従業員の生産性を判定するコンサルタントが、まずこんな質問から始めるのです。「あなたは、ここで何の仕事をしていると自分では思っていますか?」flickr.com/…s/smoothgroover22/15104006386
自分の仕事を説明するのに困るところに共感できるので、そのシーンと上記の「私の仕事」を表す画像たちは面白いと思います。けれど、求人検索でこのような誤解が起きるのは面白くありません。求人投稿が何を意味するか理解することは重要です。将来の雇用主にとって、私たちのスキルや能力を理解することは重要です。私たちは同じ職種名を持つけれど、全く違う仕事内容が記載された求人投稿を全て調査してみました。
同じ職種名なのに、どうして企業によっては大きく違う内容を指したりするのでしょうか?
この現象は、データサイエンスの分野では、ますます一般化しつつあります。過去数年の間でこの領域の人気は劇的に上がりました。データサイエンスの求人数は増加した一方、職務の明確さは減少しました。本記事では、Indeed の持つ多大な量の行動データを活用し、データサイエンス分野のトレンドと、職務のより的確な説明について解説します。
止まらないデータサイエンスの人気
「データサイエンティスト」というキーワードに一致する求人は四年の間に求人の 0.03% から約 0.15% まで (+400%) 増加しています。
2012 年の初め頃ですら、データサイエンティストは世間を賑わした記事の中で「21 世紀で最もセクシーな仕事」と言われていました。この記事名だけでは飽き足らない場合、もしかしたら人々は金銭的な理由で興味があるのかもしれません。Indeed の給与データによると、データサイエンティストの平均年収は 13 万ドルです。
データサイエンスは、ヨーロッパのスーパーで安売りされたヌテラみたいに人気が伸びています。この増加傾向とともに、領域内で、より具体的な職務の改良が見られるようになりました。同僚の Trey Causey も、「Rise of the Data Product Manager」という記事の中で、プロダクトマネージャーとデータサイエンティストの収束について述べています。
Indeed 内のデータサイエンティストの多くは、最近の「データサイエンティスト」と呼ばれる職種名は、どちらかというと多くの異なる職務内容をひとくくりにする言葉になってきていると感じていました。私たちはこれを深く掘り下げて、勘を検証したいと考えました。求人市場内で職務の自然な描写を見つけることができるのでしょうか?データを利用して、これらの職種名の違いを理解し、それらをさらに明確に、一貫性を持って分類することができるのでしょうか?
ネタバレ注意: できます。
重なり合うデータサイエンス分野のキャリア
この職種名の分析のために、2018 年 1 月に Indeed で「データサイエンティスト」という検索クエリを入力した全てのサイト訪問者を調べました。次に、同じユーザーが行ったその他の検索も確認しました。検索ごとの各ユーザーの指標と、ユーザーによる検索の指標を作りました。これらの指標のデカルト積を計算し、検索キーワードのあらゆる組み合わせの頻度を調べました。
次に、データから「データサイエンティスト」を削除しました。この検索は全ユーザーに存在しているからです。igraph と言う R のパッケージを利用して、クラスタ解析と可視化を行いました。igraph のドキュメンテーションによると「この関数はコミュニティ検出のための高速な貪欲法のモジュラリティ最適化アルゴリズムを実装しています」とのことです。このアルゴリズムについて調査する中で、私たちは、疎な領域を持つ大きなデータセットからコミュニティの作成を素早く行えるように、これが設計されたことを知りました。お、まさに私たちが使うデータと同じですね!
次の式は、これの仕組みを説明するのに必須の式です。何を意味しているか理解するには論文を読んでください。
次に、各クラスタで頂点の最小数を選ぶために、私たちは枝刈りを行うパラメータを持つ関数を書きました。より大きな数は必ずしもさらに合計グループ数が多くなるとは限りませんし、逆も然りなので、このパラメータはguess and check と呼ばれる方法 (アメリカの算数で使われる試行錯誤して答えを当てはめていく方法) で、設定するのが適しています。私たちは、3 から 20 までの様々な数を試し、グループが意味をなすかどうか確認しました。本当に小さなクラスタについては気にせず、クエリを組み合わせたかったのです。これについては、後ほど詳細を書きます。
5 を枝刈りを行う閾値として選ぶことで、4 つのクラスタが形成されました。続いて、私たちはこれらのクラスタを「ビジネスインテリジェンス」「統計学者」「機械学習エンジニア」「自然科学者」と分類しました。
以下は、各グループを構成するクエリです。
See the Pen Job Title Network Graph by Erik Oberg (@obergew) on CodePen.
作成者: Erik Oberg 使用ツール: CodePen viz
そして、以下はクラスタがどのような状態になったかを表しています。
作成者: Zhuying Xu 使用ツール: Plotly viz
前述の図から、興味深いことにいくつか気づきます。
まず、統計学者と機械学習エンジニアの間には明確な区分が存在します。これらの職が交わり合うような検索は多くないため、これは 2 つのキャリアパスがはっきりと違うことを示唆しています。
次に、ビジネスインテリジェンスは、きれいにグループ分けはされていないようです。他の職種間にも広く分散しています。これは、統計学者の検索結果とさらに重なり合う自然科学者の検索結果とは対照的です。このことから、ビジネスインテリジェンスを検索する求職者は、データサイエンスの分野内で幅広い求人を閲覧していることがわかります。また、ビジネスインテリジェンス(以下 BI)の職は、現在はデータサイエンスと呼ばれることがより多くなったことを意味しているのかもしれません。さらに、機械学習や統計学者を検索する求職者は、両方のカテゴリでは求人検索をしないようです。
最後に、一部の自然科学者は、おそらくデータサイエンスの領域に統計学者を通じて参入していることがわかります。
データサイエンスにおける、より的確な職務名とは
これらの発見から、データサイエンティストには、一つの型があるわけではないと結論を下します。むしろ、たくさんの型があるのです!データサイエンティストを単純に説明できるものなどないですし、この職種名だけでは十分な情報を与えてくれません。職種名としてのデータサイエンスは、実践の中では様々な異なる職務として言い換え得るのです。
まとめると、特定の企業における「データサイエンティスト」が何を指すのか理解するには、より多くの情報を収集することが大切です。私たちの作成したクラスタ化の中で特定された職務を念頭に置いていただくことは、採用企業にも有益であると私たちは信じています。これにより、企業が必要とする候補者を見つけ、求職者も自分の希望する職へ応募することができるようになります。
Indeed には、データエンジニア、BI デベロッパー、BI アナリスト、プロダクトサイエンティスト、そしてデータサイエンティストなどの、「データ」系の職種がいくつかあります。それぞれの関係は、以下の図のように表すことができます。
作図協力者: Ron Chipman
これがややこしくなりうることは、簡単にわかります。観察した検索パターンから、誰かが「Indeed でデータサイエンティストになりたい」と言った場合、どのチームや職種が最適なのかははっきりしません。それぞれのチームに、異なる工程の面接があり、異なる方法で会社に貢献しているため、最適な職種に応募することが非常に重要となります。
本記事は、Indeed のデータサイエンスインサイトを深く掘り下げていくブログ記事シリーズの第一回となります。今後の投稿では、データサイエンスの求人に関連するスキルについて詳しく調べていく予定です。トレンドや、さらに具体的な職種がそれぞれどう重なりあっているかなどについても特集していきます。また、特定のキャリアパスに興味がある場合、どんなスキルを身につけるべきかなどについても説明します。企業に向けては、組織の具体的なニーズに対して、より良い面接を行うためのヒントなども紹介します。そして、最後に、「超新星職種」として、急激に伸びては消えていく職種についてもお伝えする予定です。
90 年代の「ウェブマスター」のように、「データサイエンティスト」も消えていくのでしょうか?そうした予想などの今後の投稿も、サブスクライブや通知設定のうえ、ぜひまたご覧ください。
Indeed では、We Help People Get Jobsをモットーにしています。そして、あなたの力にもなりたいと考えています。もし、これらの職務にワクワクしていただけたら、www.indeed.jobs をご覧いただき、ぜひご応募ください!
脚注
A. Clauset, M.E.J. Newman, C. Moore: Finding community structure in very large networks, http://www.arxiv.org/abs/cond-mat/0408187