データサイエンティストはどこからくるのか?

データ分析について特集している本シリーズの前回の記事では、私たちは「データサイエンティストなんてものはない」という主張をしました。代わりに、「データサイエンティスト」という呼び方は、いくつもの特定の職種を指すようになってきています。なので、異なるスキルや職務に加え、データサイエンティストとは、どんな人々を指し、どのようなバックグラウンドを持つ人たちなのかを知りたい、と私たちは考えました。

本記事では、私たちが、現役のデータサイエンティストの履歴書のデータを詳しく調査する中で、データサイエンティストが、さまざまな研究分野、学歴と職歴を持つことを発見したこと、そして、データサイエンティスト、アナリスト、エンジニア、ソフトウェアエンジニア、そして機械学習エンジニアの職種間の類似点と異なる点について、このデータから読み取れることを掘り下げたいと思います。

データサイエンティストとは何者か?

もしあなたが、身の回りのデータサイエンティストに、データ分析の前には何をしていたか尋ねるなら、おそらく各々が違う答えをくれるでしょう。彼らの多くは、天体物理学から動物学まで幅広い分野の修士号や博士号を持っています。一方で、近年大学が開講した新しいデータ分析の大学院プログラム出身の人たちもいます。そして、ソフトウェアエンジニアリングやデータ解析などの技術職出身の人たちもいます。

Indeed では、we help people get jobs を理念としています。これを実現する一つの方法に、採用企業のニーズにマッチする人材が見つけやすいように、求職者が履歴書を登録できるようにしています。そんな私たちの持つデータセットは、何万もの現職そして元データサイエンティストによって登録された履歴書も含んでいます。この履歴書データを利用して、データサイエンティストがどこからやってくるのか洞察を得ることができるのです。

学歴は重要?

最終学歴

まず、「データサイエンティスト」や関連分野¹ の職に就いている人々の最終学歴について着目しました。

前回の記事の中で発見した特徴的な役割の一部を反映しているので、データエンジニア、データアナリスト、ソフトウェアエンジニア、機械学習エンジニア、そしてデータサイエンティストの職種を選びました。²

データサイエンティスト

わたしたちが調べた職種のなかで、データサイエンティストの教育レベルの平均は最も高いことがわかりました。

  • データサイエンティストは、その他の職種よりも博士号を持つ人が多い。しかし、彼らの 20% のみが博士号取得者であるように、データサイエンティストになるのに博士号は必須ではない。
  • データサイエンティストの 75% が上級学位(修士号または博士号)を取得。
  • 高卒または短大卒は、データサイエンティストの 5% 未満。

機械学習/データ/ソフトウェアエンジニア

ソフトウェア/データエンジニアは、大学院卒よりも四大卒が多く、機械学習エンジニアは上級学位取得者である傾向が強いことがわかりました。

  • 機械学習エンジニアの教育レベルは、データサイエンティストと同じような割合であったが、博士号取得者の割合は、両職種を比較すると 30% 程度少ない傾向にあった。この結果は、Stitch Data による同様の調査とおおむね一致している。
  • エンジニアリングに特化した職種は、一定数の修士号取得者も含みつつ学士号が多数を占め、博士号保持者は 5% 未満。
  • データエンジニアの 4 人に 1 人が、高卒または短大卒である。

データアナリスト

データアナリストの最終学歴の割合は、データサイエンティストとは全く異なっており、むしろソフトウェアエンジニアの学歴 ³ に近似していることがわかりました。

  • データサイエンティストの博士号取得者の割合はデータアナリストと比べると、ほぼ 10 倍となり、修士号取得者の割合は 2 倍程度となっている。
  • 後述するように、この傾向は、ソフトウェアエンジニアがデータ分析へと転向するパターンが一因となっている可能性がある。
  • これは、採用企業がデータサイエンティストを上級職経験者として見なしており、博士号が関連職種として扱われていることを示唆する。もしくは、修士号や博士号の研究過程で各人が受ける研修が、調査が基本となるデータサイエンスの仕事への下地を作り上げているのかもしれない。

研究分野

職種ごとに研究分野の割合を調べたところ、いくつか興味をそそる結果がありました。


「データサイエンティスト」という職種には、調べたその他の職種よりも、最も多様な専攻分野を内包しており、多数を占めるものはありませんでした。各職種のジニ不純度を計算することで、この多様性を定量化することができます。

ジニ不純度 (大きくなればなるほど、研究分野が多様であることを示します。)

  • データサイエンティスト— 85%
  • 機械学習エンジニア — 73%
  • ソフトウェアエンジニア— 53%
  • データアナリスト — 78%
  • データエンジニア— 79%

データサイエンティスト

データサイエンティストは、私たちが調査した職種の中で、明らかに最も多様な専攻分野を含み、ソフトウェアエンジニアの教育バックグランドは最も多様性が小さいことがわかりました。社会学専攻はデータサイエンス人口の中ではどちらかというと少数ですが、それでもデータサイエンティストの 5% を占めています。また、データサイエンス専攻は、それよりもやや大きな割合で、データサイエンティストの 9% を占めています。これは、各大学のデータサイエンスのプログラムが新しいことを鑑みると、やや驚く結果と言えるでしょう。

機械学習エンジニア

私たちの持つデータによると、データサイエンティストと機械学習エンジニアでははっきりと違いを示しました。機械学習エンジニアの 60% が、コンピューターサイエンスやエンジニアリングを専攻しており、「データサイエンティスト」という職種の人と比べると、これらの専攻をする傾向はほぼ 2 倍だと言うことがわかりました。また、私たちのサンプル内の「機械学習エンジニア」という職種には、社会学専攻だった人はほとんど存在しませんでした。

ソフトウェアエンジニア

ソフトウェアエンジニアは、当然とも言えますが、コンピューターサイエンスやエンジニアリング専攻に、より大きく集中しています。機械学習エンジニアは、ソフトウェアエンジニアとデータサイエンティストの融合だとも言われます。私たちのデータは、この主張を裏付けているようです。

データアナリスト

データサイエンティストと同じように、データアナリストも教育の上で様々なバックグラウンドを持つようです。ビジネス、経済学、社会学の専攻が多く、数学、統計、自然科学専攻が少ないという点は、データサイエンティストとは異なります。また特筆すべき点は、データサイエンス専攻の学位を持つ人は、データアナリストよりも、データサイエンティストに多くみられるという点でしょう。

データエンジニア

データエンジニアの専攻分野の割合は、データサイエンティストと機械学習エンジニアの中間のようなものを示しています。しかし、前項で書いたように、データエンジニアには、最終学歴が高校であるという人も少なくありません!

データサイエンティストの前職とは?

驚くことではありませんが、多くの人(サンプルのおよそ 25%)が、前職も現職と同じ職種だったことがわかりました。

これは、ソフトウェアエンジニアの中では特に顕著で、前職でもソフトウェアエンジニアの職種についていた割合が 71% と、この傾向が非常に高いことが分かりました。これはおそらくソフトウェアエンジニアリングの分野が、最近まで職種として存在しなかったデータサイエンスとは違い、相対的に成熟していることが要因と考えられます。

ここでいう「学術」とは、大学に雇用されているか、学術的な環境の中で研究者として勤めていたことを指しています。特に大学院生は、このようなポジションについていた傾向にあり、大学院卒の人材が多く存在する分野 ( データサイエンス、機械学習エンジニア、データアナリスト) のほとんどは、こうした学術界からの転向を最も多く含んでいます。

おそらく、もっと興味深い質問は、「違う分野で働いていたデータサイエンティストの前職は何だったのか?」でしょう。

ここで、興味深いパターンが見えてきます。データサイエンティスト、機械学習エンジニアそしてソフトウェアエンジニアは、卒業後すぐに就職する傾向にあるのです。「その他」とされている前職は、ケータリング、チューター、店員など、卒業までの間に行う仕事などで、関連性がありません。

多くの職種は、データサイエンティストや機械学習エンジニアに転向していますが、データサイエンティストと機械学習エンジニアによる他の職種への転向はほとんど見られません。これにはおそらく、相対的な分野の大きさ、そして「データサイエンティスト」と「機械学習エンジニア」の職種がまだ初期にあること、さらには近年、こうした職種の人気が伸びていることなどが要因としてあげられるでしょう。一方、こうした傾向は、個人が職種を転向したりキャリアパスを前進する様子を表す、興味深い現象を観測しているのだとも思います。

以下の弦グラフは、各職種間での主な転向を表しています。弦の色が転職する前の元の職種を表しています。

ソフトウェアエンジニアは全体の中で大きな割合を占めています。そこから多くの人はアナリストへ転向し、また一方ではポンッとデータサイエンスへ移っています。

データサイエンスには、学術系、アナリスト、そしてソフトウェアエンジニアから同程度流入してきています。ソフトウェアエンジニア、最もデータアナリストに転向する傾向がありますが、これはデータサイエンティストの職種の数よりもデータアナリストの職種の数のほうがより大きいことに一因しています。

現状では、データサイエンスからの転向する人は非常に少ないことがわかります。また、この傾向が将来的に変わっていくかは不明です。ここで重要なことはデータサイエンスの分野が、様々なバックグラウンドを持つ人からなり、そしてソフトウェアエンジニアがデータサイエンティストになったり、データアナリストがデータサイエンティストになるのは比較的一般的だということです。これは、ソフトウェアエンジニアリングの職種から転向を考えている人に、実現可能な道として提示できるかもしれません。

データエンジニアリングへの転向は、ほぼ独占的にソフトウェアエンジニアリングからの流入となっています。

結論

データサイエンティストはどこから来るのか、というのは色々なところからだと言うのがわかりました。分野を主に占めるのは、修士号ならびに博士号取得者ですが、学士号取得者も充分多く、職種の 26% を占めています。今のところ、データサイエンス業界で顕著な出身専攻分野はありません。むしろ、ソフトウェアエンジニア等と比較すると、データサイエンティストのバックグランドは多様です。さらに、多くの人が、ソフトウェアエンジニアリングからデータ分析などの他の技術職からデータサイエンスへと転向しているのがわかりました。

機械学習エンジニアの学歴は、データサイエンティストと似ていますが、エンジニアリングのバックグラウンドが比重を占める傾向があり、ソフトウェアエンジニアリングから流入してくる傾向が大きいことがわかりました。データエンジニアリングの専攻分野も、やはりエンジニアリングに集中していますが、他の職種と比べた時に学位レベルは低い傾向が見られました。

データサイエンス職を探している方へのアドバイス

大学院は、現状もデータサイエンティストが業界参入するにあたって最も有力な方法でしょう。データサイエンスの学位は、ますます存在感を高め、業界に参入するうえで当たり前のものになってきているようです。現在修士課程にいる方は、きっと身の回りの誰かしらがデータサイエンスの業界で働いているのではないでしょうか。彼らに連絡をとって、どのように就職活動を行ったのか話を聞いてみることをおすすめします。

ソフトウェアエンジニアとデータアナリストによるデータサイエンス職への転向は、ごく普通に行われており、こうした流入層はデータサイエンティストの一定数を占めています。今後転職を検討する方も、こうしたルートを考慮しておくべきでしょう。

データサイエンティストを採用する企業へのアドバイス

ゼネラリストのデータサイエンティストを採用中の場合、業種や学位が想定するものと違うから選考しない、というのは避けましょう。データサイエンティストは学歴もバックグラウンドも様々です。また多くの場合、なにがしかの上級学位を取得していますが、だからといって特定の専攻分野出身者が多いわけでもありません。

学術界からデータサイエティスト経験者や科学者を採用するのに苦戦している場合、ソフトウェアエンジニアリングやデータアナリストの職種からの採用を検討してはどうでしょうか。こうした転向はデータサイエンス業界では非常に一般的なものです。

また、別の記事でお伝えする予定ですが、採用している職種についてしっかりと把握することが大切です。データサイエンティストが必要だけれどエンジニアリング的な職務が多い場合には、「機械学習エンジニア」という職種名への変更を検討しましょう。もし、ビジネス中心の職歴を持つデータサイエンティストの採用を考えている場合、アナリストの採用を視野にいれましょう。データベースやインフラのスキルに特化した人材が必要であれば、データエンジニアの採用を検討し、その際学歴はあまり重要視しないでください。

最後に、ゼネラリストのデータサイエンティストがチームに必要だと考えている場合、色々なバックグラウンドの中から採用を行ってください。Indeed のデータサイエンスとプロダクトサイエンスのチームは、天文学、社会学、生物学、数学、経済学そして経営学など様々な分野から集まっています。人口統計学的な属性においても、そして専攻分野においても、多様性のあるデータサイエンスチームを持つことは、素晴らしい仕事をするうえで不可欠です。


脚注

¹ 「データサイエンティスト」と履歴書に書いている求職者の履歴書を調べており、ここでは確かにバイアスがあることに注意されたい。これは、この業種で数年経験している可能性のある個人を対象に調査しており、より最近の傾向を如実に表しているものとは言えない可能性がある。

² 各職種名については、関連する職種名もバケットを作成した。例えば、「シニアデータサイエンティスト」はデータサイエンティストのカテゴリ内に存在し、「C++ プログラマー」は、ソフトウェアエンジニアのカテゴリに存在する。

³ Paula Leonova 氏による本記事は、データサイエンスとデータアナリストの違いについて、良質でデータに基づく議論が展開されている。

職種のヒエラルキーなどを示唆する意図はないことを、ここで必ず明確にしておきたい。多くのソフトウェアエンジニアの職務は、一般的なデータサイエンティストの職務よりもずっと上級レベルである。ここでは単に、最近姿を現しつつある転職パターンに言及している。

Stitch は、データエンジニアリングの職務の解説を分かりやすくまとめている。この中で、ソフトウェアエンジニアリングとの重なる部分について言及がある。

職場における多様性の重要さについては、以下の記事も参照されたい。https://press.princeton.edu/titles/8757.htmlhttps://www.mckinsey.com/business-functions/organization/our-insights/why-diversity-matters

http://www.chabris.com/Woolley2010a.pdf

「専攻分野の多様性」について、さらに大きな多様性についての議論とまとめることは、筆者の意図するところではない。全ての次元において多様性は、素晴らしい仕事を成し遂げ、より良い社会を作るためには不可欠であり、専攻分野を重点的にとりあげるだけでは、現在米国の技術職者間において多様性が圧倒的に欠如している問題を改善できない、と筆者は強く信じている。Stitch による記事は、データサイエンス業界も、多様性を様々な視点から見ても、エンジニアリング職と状況はあまり変わらないと指摘している。

定性 + 定量 : 定性調査はデータ分析にこんな風に役立つ

機械学習のプロジェクトの開発サイクルでの最初の発表時にはっきりした重要な機能を含まずに、気まずい思いをしたことはありませんか?モデル作成を試み悪戦苦闘していると、時には科学的手法の観察という手順を忘れて、仮説検証にいきなり進んでしまうこともあるでしょう。

データサイエンティストもモデルも、定性調査を大いに活用できます。定性調査を行わない場合、データサイエンティストは、ユーザーの行動を憶測してしまうリスクを背負うことになります。こうした憶測は、以下のような事態に繋がりかねません。

  • 重要なパラメータの軽視
  • プロダクト利用者を理解する大切な機会を逃す
  • データの誤った解釈

本記事では、データサイエンティストがより良いモデルを作る上で、定量調査がどのように役立つかについて、最終的に数百万ドルの総収益をあげた Indeed の新規リード (見込み顧客) 選択の機械学習モデルをケーススタディに使用しながら、掘り下げていきたいと思います。

定性調査とは何か?そして定量調査との違いとは?

データサイエンティストで、定性調査の訓練をきちんと受けた人は少ないでしょう。A/B テストや、調査、回帰などの定量調査については、より深く熟知しています。定量調査は、「平均的な中小企業が求人投稿にかける金額はいくらだろうか?」「データサイエンティストに必要なスキルとは?」や、さらには「トッツィーロールポップ(注: 真ん中に食感の違うものが入っている棒付きキャンディの商標)の中心にたどり着くまでに何回なめればいいか?」 (ちなみに答えは「三なめ」とのこと) というような問いに答えるのに優れています。

けれど、問いの中には、「なぜ法人担当営業は、あのリードでなく、このリードに連絡するのか?」や「中小企業は、求人広告のスポンサーになるか否かをどう判断しているのか?」など、定量調査では答えられないものもあります。「何故トッツィーロールポップの中心にたどり着きたいのか?」という深い問いも然りです。

こうした問いに答える上で、定性的研究者は綿密なインタビューや、参加者の観察や、コンテンツ分析にユーザビリティ研究などの手法に頼りにします。これらの手法は、自分の研究している対象の人や物との、さらに直接関わるようになります。そして、どのように、何故人々が特定の行動をするのか、そして異なる行動はそれぞれどんな意味を持っているのか、さらに理解できるようになります。

つまり、定量調査は「何」「数量」「頻度」を教えてくれ、定性調査は「理由」「方法」を教えてくれるのです。

作成者 : Indeed UX リサーチマネージャーの Dave Yeats。cmx.io を利用。

定性調査を利用する理由 : リードジェネレーションにおけるケーススタディ

最近、定性調査の利用が、Indeed のリードジェネレーション (見込み顧客獲得) チームに大いに役立った事がありました。採用企業による求人投稿は、Indeed が収益機会を表しています。そうした採用企業を法人営業担当者につなぐと、営業担当は採用企業に連絡をとり、スポンサー求人広告を出稿する費用の設定を手伝います。これにより求人のビジビリティが上がるので、採用活動のスピードもアップします。ここでは、まだ Indeed の有料サービスを利用したことがない採用企業を「リード」と呼びます。

しかしながら、あるリードは他のリードよりも良い場合があります。リードが有料プランを使用するかどうかの社内の推測を示す 5 段階の星評価をリードにつけられるようにしたいと考えました。社内のプロダクト分析チームは、リードのスコア評価と、企業を営業担当に繋ぐ作業をより効率よく行える機械学習モデルを作成することを決定しました。しかし、どこから手をつければいいのでしょうか? このプロジェクトの前には、リード評価に関する経験も、良いリードとはどんな企業を指すかという直観もほとんどありませんでした。私たちは、どのようにしてモデルにどんな機能を入れるべきか判断できたのでしょうか?

私たちは、リードに関して最も実務経験を持つ人々、つまり法人営業担当者本人達を頼りました。良いリードが何かを熟知しているだけでなく、私たちの成果物を活用する当事者でもあるからです。私たちは、以下の 3 方面から定量的アプローチをとりました。

  • 観察 日々のセールス業務について学ぶために、チーム内の各メンバーは、個別に営業担当者を見学し、電話営業の内容を聞かせてもらいました。どのリードに電話するかをどう選ぶのか、電話で何を話すかをどう判断しているのか、そして、実際にはどのように契約成立にいたるのか、私たちは観察しました
  • ヒアリング 社内で何名かのセールスマネージャーや営業担当者と話す機会を設け、これまでに電話しよう、またはやめておこうと思ったリードについて「最初にどのリードに電話するか、どうやって選んでいますか?」や「何故このリードへの営業はやめようと判断したのですか?」などの質問をしました。
  • コンテンツ分析 リードに関して苦労している点をさらに理解できるように、会社全体規模で行なった法人営業担当者へのアンケートへの何千もの自由形式の回答を綿密に調査しました。

そして、私たちはたくさんのことを学びました! 3 つのシンプルな定性調査を数時間行っただけで、私たちは機能となりうる可能性があるものをたくさん集めることができました。もし、営業チームのメンバーの隣に座り、彼らの仕事を観察していなかったら、私たちは絶対にこうした洞察を得ることができませんでした。次なるステップは、データを深く読みとり、営業担当者から学んだことをどの程度普遍化できるのか検証することでした。

法人営業担当者の行動と思考プロセスについて定性調査から得た直観と共に、私たちは最終的に年間の増分収益で何百万ドルも生み出した機械学習モデルを作りました。それだけでは終わりません。モデルのフィードバックを得るために、営業担当者へのヒアリングと見学を続けました。そして、さらなる増分収益を生み出した新規のバージョンも作成したのです。そして、モデルをマーケティングすることで、社内周知を図りました。

これらの定性調査は、私たちに現実を見据えさせ、エンドユーザーへの共感を育んでくれました。定性調査なしには、モデルは現実離れし、ユーザーのニーズに対応するのにもっと苦労していたかもしれません。しかし、定性的な手法を用い、直観と機能する仮説をモデルに盛り込みました。これらは、後から定量のデータで検証することができるものです。

定性的な手法の基本を学ぶにあたって

上記のケーススタディでは、エンドユーザーは、Indeed 社内の同僚でした。注目すべきは、外部ユーザーを対象にした定性調査は常にこうシンプルに済むとは限らない、ということです。Indeed では、こうした種類の調査を行う際には最高の UX 定性調査チームに依頼することができます。もしあなたの勤め先にもこうしたチームがあれば、連絡してみることをお勧めします。そして、もしまだこうしたチームが社内にないならば、作ってみてください!そして、協力し合いましょう。見学しましょう。ビールを奢りましょう。素晴らしい存在なのですから!

でも、そこで終わりではありません。下記は、Indeed に転向してきた元研究者たちが薦めてくれた、お気に入りの定性調査に関する本や参考資料です。

  • 『When to Use Which User-Experience Research Methods』 (記事名の邦訳 : いつ、どんなUXリサーチの手法を使用すべきか)— 手元にある問いをリサーチするのにどの手法が適しているか判断する方法を説明した、ニールセン・ノーマングループによる良記事です。
  • Learning from Strangers』 (題名の邦訳 : 他人から学ぶこと) — 綿密なインタビューを行う際に、どのように質問をすべきかを指南する、長く読まれている本です。
  • 『How to Conduct User Interviews』 (記事名の邦訳 : ユーザーインタビューを実施する方法) — 産業界と、プロダクト開発に向けた、短めのガイド記事です。
  • 『5 Steps to Create Good User Interview Questions』 (記事名の邦訳 : 良質なユーザーインタビューの質問を作成するための 5 つのステップ) — 綿密なインタビューを実施する際に、バイアスのかかった質問や、誘導する質問を避けることについて、Medium に投稿された素晴らしい記事です。
  • Writing Ethnographic Field Notes (題名の邦訳 : 民族学の現地調査を記録する方法。日本語は未出版。) —  観察研究の間、どのようにして詳細な情報を収集するかについて述べた影響力のある本です。人類学や民族学研究に向けたものですが、日常の中でのやりとりにおいても詳細を意識するための、たくさんの良質なヒントが書かれています。
  • Salsa Dancing in the Social Sciences』 題名の邦訳 : 社会学におけるサルサダンス。日本未出版。)— 最も変わった題名の本の一つであることに、ほぼ間違いありませんが、定性調査の利点を楽しく親しみやすくまとめています。
  • ウェブユーザビリティの法則―ストレスを感じさせないナビゲーション作法とは』 —  Steve Krug 氏は主にユーザビリティEnsure that image captions, if present, are centered.Ensure that image captions, if present, are centered.に焦点を当てていますが、この本は、人々がどのようにウェブサイトに反応するかなどについて、良いヒントを与えてくれます。

もしあなたが手法やデータ分析に情熱を注いでいるなら、Indeed のプロダクト分析やデータ分析の求人をぜひチェックしてみてください ! 

職種名は重要か?

的確な職種名を選ぶことの大切さ

職種名は多くの場合、求職者が採用企業に興味を持つきっかけとなります。求職者は検索を行う中で、職務内容欄から求人について詳しく調べる前に、関連性のある職種をクリックします。求人を「ソフトウェアエンジニア」と呼ぶのと、「プログラマー」と呼ぶのでは、応募者数や最低要件を満たしている人材の割合に差が出ることが考えられますが、実際どう違うのでしょうか?驚くことに、ほとんど同じような職種名でも、一つの単語を変えただけで、応募要件を満たしている応募者数と応募者総数が増えることが分かりました。本記事では、初期のリサーチと、これを将来どう改善していけるかについて書いていきたいと思います。

Indeed におけるデータサイエンスとプロダクトサイエンス

Indeed におけるデータサイエンスの組織には主に二つの職種が存在します。データサイエンティストとプロダクトサイエンティストです。Indeed のデータ/プロダクトサイエンティストは、現在 オースティン、サンフランシスコ、シアトル、シンガポール、東京、の5 つのオフィスに配属されており、幅広い種類のプロダクトやエンジニアリングチームと一緒に働いています。

どちらの職種も、人々の職探しに役立てるように、高度な統計や機械学習の手法を用いています。データサイエンスは、機械学習とソフトウェアエンジニアリングにより重きを置いているのに対し、プロダクトサイエンスは実験、分析、そしてプロダクトを改善できるような、さらにシンプルなモデル作成に注力しています。つまり、データサイエンティストはプロダクトマネジメントよりもソフトウェアエンジニアリングに近く、プロダクトサイエンティストは、その逆となっています。

職務内容の違いはこちらからご覧いただけます ( プロダクトサイエンティストデータサイエンティスト )。これらの違いにも関わらず、最終的に両ポジションで必要とされる条件は基本的には同じです。それは、数学とコンピューターサイエンス、そして専門領域の知識への深い理解と経験を持っている、ということです。

出典: Palmer, Shelly. Data Science for the C-Suite. New York: Digital Living Press, 2015. Print. Conway, Drew. The Data Science Venn Diagram. http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

逐次検定: 職種名の変更

職種名がどのように採用プロセスに影響するかを調査するため、実験を行い、3月15日に「プロダクトサイエンティスト」という職種名を、シアトルでは「データサイエンティスト: プロダクト」に、またサンフランシスコでは「プロダクトサイエンティスト: データサイエンス」に、変更しました。その間、オースティンでは元の職種名をそのまま使用していました。また、3 都市ともに職務内容は同じまま残しました。

A/B テストにはエンジニアリングの仕事を必要としてしまうので、私たちはこれらを逐次確認していくことを選びました。統計的な検定力分析を行い、サンプルサイズを事前に決定しました。私たちはまず、クリックスルー率(以下 CTR。 クリック数/インプレッション数と定義)と3月15日前後の 3 つの都市での応募者数を比較しました。以下の 2 つの表からも応募者数と CTR が3月15日を境にシアトルとサンフランシスコ(以下 SF )で跳ね上がっているのがわかります。また、3月15 日以降のシアトルと SF の応募者数と CTR が、オースティンよりも有意に高くなっていることを示す t 検定を行いました。

appgrowthrates

オースティン、SF、シアトルにおける CTR 増加率

ctgrowthrates

しかし、職種名の変更は求人検索の順位に影響を与える可能性があり、ページ上で上位と下位の求人はクリックされる確率が通常では高いことを私たちは知っていました。この表示位置のバイアスを考慮するために、ページ上のクリック数、検索結果 (SERP) での表示位置、都市 (オースティン、シアトル、SF)、そして私たちが職種名を変更したかどうかを基に、クリックを予測するロジスティック回帰分析を行いました。また 、「職種名を変更する前より後の方で、様々な都市での対数オッズ比が異なる」という仮定を検証するために、都市と職種名を変更したかとの相互作用項を含みました。

回帰方程式は以下のように推定されました。¹

 

以下の交互作用プロット内の平行ではない線は、有意である交互作用効果があることを示唆しています。これは、交互作用項の関連する有意のp値が裏付けています。

職種名を変更する前は、等式は単純に次のようなものでした。

オースティンからシアトルに切り替えると、対数オッズに -0.18 という変化が生まれ、 オースティンから SF に切り替えると対数オッズに -0.09 という変化が生まれました。

職種名を変更した後の等式は以下のようになります。

オースティンからシアトルに切り替えると、対数オッズに -0.18+0.6 = 0.42 という変化が生まれ、 オースティンから SF に切り替えると対数オッズに -0.09+0.71 = 0.62 という変化が生まれました。

次のグラフはまた、シアトルと SF の対数オッズ比が、職種名を変更する前よりも後の方が、ずっと高いことを裏付けています。まとめると、職種名を変更した都市では著しく応募者が多くなったことがわかりました。

citychange

要件を満たした応募のモデル

職種名を変更したのち、応募者が増えたことはわかりましたが、この応募者の集まりは、このポジションにより適しているのでしょうか?Indeed のあるチームが、履歴書が職務内容に記載されたスキルや経験の要件を満たしている尤度を計測するモデルを作成しました。

2月1日から3月14日までの間に、(職種名を変更する前の)プロダクトサイエンティストの求人に応募した全候補者に対してこのモデルを適用し、各候補者に対するスコアを取得しました。オースティン、シアトル、SF の平均スコアはそれぞれ順に 0.489、0.498、0.471 となりました。以下のプロットは、オースティン、シアトル、SF のカーネル密度推定を表しており、表は t 検定とコルモゴロフ–スミルノフ (KS) 検定の p 値 ( 有意ではない ) を示しています。KS 検定は、2 つの標本が同じ分布から掲示されているか判定しようと試みるものです。この検定はノンパラメトリックであり、データ分布に対しての仮定は行いません。いずれの検定も、職種名変更前は、3 都市の間で、応募者が要件を満たしている率が同じレベルであることを示しています。

kdesbefore

職種名変更後の全応募者にモデルが適用された際、オースティン、シアトル、SF の平均スコアはそれぞれ順に 0.466、0.516、0.528 となりました。オースティンの平均スコアが小さく減少し、シアトルと SF のスコアが上昇しているのを観測しました。以下のプロットはオースティン、シアトル、SF のスコア分布を示しています。p 値を調整するために False Discovery Rate を制御した後、いずれの検定も、職種名変更後(シアトルおよび SF)の応募者が要件を満たしている率は、元の職種名(オースティン)のそれよりも、有意に高くなっていました。一方、変更した職種名(「データサイエンティスト: プロダクト」と「プロダクトサイエンティスト: データサイエンス」)自体に対しては、はっきりとした違いはありませんでした。

kdesafter

これらの発見に驚きましたか?私たちの試験的なリサーチにより、職種名に単純に小さな変更を加えることで、より適性の高い多くの候補者が集まることがわかりました。あなたが考えるよりもずっと、職種名は重要です。興味を引くきっかけとなるため、職務内容と同じくらい注力されるべき事柄です。こうしたことから、職種名も気にかけ、求職者に見つけてもらいやすく、また目に止まりやすい職種名を選ぶべきでしょう。

さらに詳しく読んでみたいという方に、因果効果を確立するためのより厳格なアプローチとして以下を紹介します。

  • ランダム化実験計画。これは、一つまたは複数の応答変数に対する因子の効果を観測するために、恣意的に一つまたは複数の因子を変更し          ます。
  • 構造方程式モデリング³ やルービンの因果モデル⁴ などの因果推論モデル。利用することで、観測研究や、実験研究における因果効果を統計学的に分析することできます。

ももしあなたが科学的手法を利用したプロダクトの改善や開発、そして人々の職探しに役立つことに興味がある場合、Indeed で募集中のプロダクトサイエンティストとデータサイエンティストの求人をぜひご覧ください!

本記事は、現在連載中の Indeed におけるデータサイエンスについて特集しているシリーズの第二回となります。同僚のClint Chegin による第一回の投稿 「データサイエンティストなんてものはない」もぜひご覧ください。


脚注:

1. Z 値の仮説テストの p 値はテストの検定統計量です。もし帰無仮説は真である(係数がゼロである)場合、少なくとも、取得したうちの一つと同じくらいまれな検定統計量の確率を示しています。この確率が低い場合に、係数が本当にゼロであれば、このようなまれな結果を得ることはなかなかないことを示しています。Signif. code は各見積もりと関連しており、有意性のレベルにフラグを立てることだけを目的としています。アスタリスクが多ければ多いほど、p 値がより有意となります。例えば、3 つのアスタリスクは高い有意の p 値を表しています( p 値が0.001 以下の場合)。

2. これらのモデルのスコアは標準ではなく、また確率ではありません。応募のスコア 0.8 というのは、0.4 のスコアを持つ応募と相対して、さらに高い尤度を表しています(もっともらしさが 2 倍という意味ではありません)。

3. Bollen, K.A.; Pearl, J. (2013). “Eight Myths about Causality and Structural Equation Models”. In Morgan, S.L. Handbook of Causal Analysis for Social Research. Dordrecht: Springer. pp. 301–328.

4. Sekhon, Jasjeet (2007). “The Neyman–Rubin Model of Causal Inference and Estimation via Matching Methods” (PDF). The Oxford Handbook of Political Methodology.