データサイエンティストなんてものはない

一貫しないデータサイエンスの定義と、より的確な職種名とは

画像出典 ( 左から下の順に ): 1) リンク、smoothgroover22 所有、ライセンス、クロップ加工の上利用 2) リンク、NazWeb 所有、ライセンス、3) リンク、BalticServers.com所有、 ライセンス 4) リンク、Wallpoper 所有 5) リンク、The Opte Project 所有, ライセンス, クロップ加工の上利用


あなたは本当のところどんな仕事をしていますか?

映画『リストラ・マン』の中に印象深いシーンがあります。従業員の生産性を判定するコンサルタントが、まずこんな質問から始めるのです。「あなたは、ここで何の仕事をしていると自分では思っていますか?」flickr.com/…s/smoothgroover22/15104006386

自分の仕事を説明するのに困るところに共感できるので、そのシーンと上記の「私の仕事」を表す画像たちは面白いと思います。けれど、求人検索でこのような誤解が起きるのは面白くありません。求人投稿が何を意味するか理解することは重要です。将来の雇用主にとって、私たちのスキルや能力を理解することは重要です。私たちは同じ職種名を持つけれど、全く違う仕事内容が記載された求人投稿を全て調査してみました。

同じ職種名なのに、どうして企業によっては大きく違う内容を指したりするのでしょうか?

この現象は、データサイエンスの分野では、ますます一般化しつつあります。過去数年の間でこの領域の人気は劇的に上がりました。データサイエンスの求人数は増加した一方、職務の明確さは減少しました。本記事では、Indeed の持つ多大な量の行動データを活用し、データサイエンス分野のトレンドと、職務のより的確な説明について解説します。

止まらないデータサイエンスの人気

「データサイエンティスト」というキーワードに一致する求人は四年の間に求人の 0.03% から約 0.15% まで (+400%) 増加しています。

2012 年の初め頃ですら、データサイエンティストは世間を賑わした記事の中で「21 世紀で最もセクシーな仕事」と言われていました。この記事名だけでは飽き足らない場合、もしかしたら人々は金銭的な理由で興味があるのかもしれません。Indeed の給与データによると、データサイエンティストの平均年収は 13 万ドルです。

 

データサイエンスは、ヨーロッパのスーパーで安売りされたヌテラみたいに人気が伸びています。この増加傾向とともに、領域内で、より具体的な職務の改良が見られるようになりました。同僚の Trey Causey も、「Rise of the Data Product Manager」という記事の中で、プロダクトマネージャーとデータサイエンティストの収束について述べています。

Indeed 内のデータサイエンティストの多くは、最近の「データサイエンティスト」と呼ばれる職種名は、どちらかというと多くの異なる職務内容をひとくくりにする言葉になってきていると感じていました。私たちはこれを深く掘り下げて、勘を検証したいと考えました。求人市場内で職務の自然な描写を見つけることができるのでしょうか?データを利用して、これらの職種名の違いを理解し、それらをさらに明確に、一貫性を持って分類することができるのでしょうか?

ネタバレ注意: できます。

重なり合うデータサイエンス分野のキャリア

この職種名の分析のために、2018 年 1 月に Indeed で「データサイエンティスト」という検索クエリを入力した全てのサイト訪問者を調べました。次に、同じユーザーが行ったその他の検索も確認しました。検索ごとの各ユーザーの指標と、ユーザーによる検索の指標を作りました。これらの指標のデカルト積を計算し、検索キーワードのあらゆる組み合わせの頻度を調べました。

次に、データから「データサイエンティスト」を削除しました。この検索は全ユーザーに存在しているからです。igraph と言う R のパッケージを利用して、クラスタ解析と可視化を行いました。igraph のドキュメンテーションによると「この関数はコミュニティ検出のための高速な貪欲法のモジュラリティ最適化アルゴリズムを実装しています」とのことです。このアルゴリズムについて調査する中で、私たちは、疎な領域を持つ大きなデータセットからコミュニティの作成を素早く行えるように、これが設計されたことを知りました。お、まさに私たちが使うデータと同じですね!

次の式は、これの仕組みを説明するのに必須の式です。何を意味しているか理解するには論文を読んでください。

次に、各クラスタで頂点の最小数を選ぶために、私たちは枝刈りを行うパラメータを持つ関数を書きました。より大きな数は必ずしもさらに合計グループ数が多くなるとは限りませんし、逆も然りなので、このパラメータはguess and check と呼ばれる方法 (アメリカの算数で使われる試行錯誤して答えを当てはめていく方法) で、設定するのが適しています。私たちは、3 から 20 までの様々な数を試し、グループが意味をなすかどうか確認しました。本当に小さなクラスタについては気にせず、クエリを組み合わせたかったのです。これについては、後ほど詳細を書きます。

5 を枝刈りを行う閾値として選ぶことで、4 つのクラスタが形成されました。続いて、私たちはこれらのクラスタを「ビジネスインテリジェンス」「統計学者」「機械学習エンジニア」「自然科学者」と分類しました。

以下は、各グループを構成するクエリです。

See the Pen Job Title Network Graph by Erik Oberg (@obergew) on CodePen.

作成者: Erik Oberg  使用ツール: CodePen viz

そして、以下はクラスタがどのような状態になったかを表しています。

clusteringresults

作成者: Zhuying Xu  使用ツール: Plotly viz

前述の図から、興味深いことにいくつか気づきます。

まず、統計学者と機械学習エンジニアの間には明確な区分が存在します。これらの職が交わり合うような検索は多くないため、これは 2 つのキャリアパスがはっきりと違うことを示唆しています。

次に、ビジネスインテリジェンスは、きれいにグループ分けはされていないようです。他の職種間にも広く分散しています。これは、統計学者の検索結果とさらに重なり合う自然科学者の検索結果とは対照的です。このことから、ビジネスインテリジェンスを検索する求職者は、データサイエンスの分野内で幅広い求人を閲覧していることがわかります。また、ビジネスインテリジェンス(以下 BI)の職は、現在はデータサイエンスと呼ばれることがより多くなったことを意味しているのかもしれません。さらに、機械学習や統計学者を検索する求職者は、両方のカテゴリでは求人検索をしないようです。

最後に、一部の自然科学者は、おそらくデータサイエンスの領域に統計学者を通じて参入していることがわかります。

データサイエンスにおける、より的確な職務名とは

これらの発見から、データサイエンティストには、一つの型があるわけではないと結論を下します。むしろ、たくさんの型があるのです!データサイエンティストを単純に説明できるものなどないですし、この職種名だけでは十分な情報を与えてくれません。職種名としてのデータサイエンスは、実践の中では様々な異なる職務として言い換え得るのです。

まとめると、特定の企業における「データサイエンティスト」が何を指すのか理解するには、より多くの情報を収集することが大切です。私たちの作成したクラスタ化の中で特定された職務を念頭に置いていただくことは、採用企業にも有益であると私たちは信じています。これにより、企業が必要とする候補者を見つけ、求職者も自分の希望する職へ応募することができるようになります。

Indeed には、データエンジニア、BI デベロッパー、BI アナリスト、プロダクトサイエンティスト、そしてデータサイエンティストなどの、「データ」系の職種がいくつかあります。それぞれの関係は、以下の図のように表すことができます。

Data Science Job Strengths

作図協力者: Ron Chipman

これがややこしくなりうることは、簡単にわかります。観察した検索パターンから、誰かが「Indeed でデータサイエンティストになりたい」と言った場合、どのチームや職種が最適なのかははっきりしません。それぞれのチームに、異なる工程の面接があり、異なる方法で会社に貢献しているため、最適な職種に応募することが非常に重要となります。

本記事は、Indeed のデータサイエンスインサイトを深く掘り下げていくブログ記事シリーズの第一回となります。今後の投稿では、データサイエンスの求人に関連するスキルについて詳しく調べていく予定です。トレンドや、さらに具体的な職種がそれぞれどう重なりあっているかなどについても特集していきます。また、特定のキャリアパスに興味がある場合、どんなスキルを身につけるべきかなどについても説明します。企業に向けては、組織の具体的なニーズに対して、より良い面接を行うためのヒントなども紹介します。そして、最後に、「超新星職種」として、急激に伸びては消えていく職種についてもお伝えする予定です。

90 年代の「ウェブマスター」のように、「データサイエンティスト」も消えていくのでしょうか?そうした予想などの今後の投稿も、サブスクライブや通知設定のうえ、ぜひまたご覧ください。

Indeed では、We Help People Get Jobsをモットーにしています。そして、あなたの力にもなりたいと考えています。もし、これらの職務にワクワクしていただけたら、www.indeed.jobs をご覧いただき、ぜひご応募ください!


脚注

A. Clauset, M.E.J. Newman, C. Moore: Finding community structure in very large networks, http://www.arxiv.org/abs/cond-mat/0408187

データサイエンスもプロダクトのようにマーケティングしよう

データプロダクトの市場進出に向けた 7 つのステップ

社内ツールにマーケティングが必要な理由

素晴らしいソリューションを開発したのに全然利用されなかった、なんて経験はありますか?正確度、統計的有意性、モデルの種類なども、もしそのデータプロダクトが実際に利用されなければ、問題にもなりません。高い質のデータプロダクトを開発するだけでなく、それを首尾よくローンチしてこそ、データサイエンティストとして、自分の組織に良い影響を与えられるものなのです。

Indeed のプロダクトサイエンティスト(プロダクトサイエンスはデータサイエンスの中のチームです。詳細はこちらをご覧ください !)として、事業のプロダクトと社内のデータプロダクトのローンチについて考えています。こうした状況が、「商品やサービスをローンチする際に使うマーケティング手法は、社内向けのデータプロダクトのローンチにも応用できる」ということを理解する上で役立ちました。この視点を利用して、私は自分が開発したツールを、Indeed で最も使われている上位 10% のツールにまで育てあげました。

以下に、私が行っていることを 7 つのステップに分けました。

  1. 名前選び/ブランディング
  2. ドキュメンテーション作成
  3. チャンピオンの特定
  4. タイミング
  5. 支援活動
  6. デモの開催
  7. 追跡

1. MBA な名前をつける

プロダクトには、MBA である名前が必要です。これは、Memorable ( 覚えやすいこと )、Brandable ( ブランディングしやすいこと )、そして Available ( 利用可能であること ) を意味します。

Indeed では、毎日内部のレポート用に 500 件以上の Jupyter notebook の web アプリを実行しています。私たちはこれまで 1 万 2000 件以上の IPython notebook のアプリケーションを開発し、デプロイしてきました。こうした豊富なレポート環境の中では、データプロダクトを互いに差別化する方法が必要となります。データを調査し、モデルを開発し、そして出力されたものを検証するのに費やした何ヶ月にわたる期間を、短い言葉にまとめるのは難しいだけでなく、「あのモデル」や「自分が作った収益/求職者の行動/セールスのあれ」などと呼ぶことは、あなたの仕事をふわっとごまかしてしまいかねないのです。

あなたの作った質の高いデータプロダクトを、これまでとこれからのあなたの仕事への貢献ぶりがきちんとわかるような方法で、認識してもらいましょう。

覚えやすさ (Memorable)

Apple や スターバックスは、世界で最も価値あるブランドのうちの二企業です。しかし、Signs.com による調査によると、Apple のロゴを完璧に描けたのは、調査に参加したうちの 20 % のみで、スターバックスの場合はたった 6% であったそうです。これは、名前の力を示していると思います。ロゴやデータプロダクトが、どんな見た目でどんな働きをするか覚えている必要はありませんが、名前で思い出せる必要があります。

覚えやすい名前として、しばし次のようなものとして挙げられます。

発音しやすいこと。尖った、舌を巻くような音で始まります。英語話者を対象とした調査によると、破裂音の子音 (p、t、k など) から始まる名前は、より覚えやすいと示唆していますが、他にも言葉の象徴体系ついての研究などがあるので、ぜひご覧ください。

シンプルであること。一般的な言葉 ( 例 : Apple、Indeed 等 ) が別の意味で使用されることはよくありますが、これは、豊かな脳内イメージをプロダクトに組み合わせるのに役立ちます。一般的な言葉を使用する際には、検索での発見しやすさは限られることには留意しておきましょう。覚えやすいのであれば、既存の言葉に若干手を入れる( 例 : Lyft 等 )ことで、これは解決できるでしょう。

すでに使われていること。全く新しい言葉でも可能です。新しい造語を生み出すのも、戦略の一つです ( 例 : Google、Intel、ソニーや Garmin 等 )。しかし、名前を確立させるまでに、より多くの初期準備が必要となります。社内データプロダクトのローンチの場合の関係者層、そしてタイムフレームには適していないかもしれません。

ブランディング可能であること

プロダクト名には一貫して、データプロダクトの独自性を表し、全体的にポジティブな雰囲気を持たせることが望ましいでしょう。これにより、ツールやドキュメンテーションにシームレスに名前を反映することが可能となるからです。

利用可能であること

他の人がデータプロダクトに同じ名前をつけていないかどうか確認しましょう!

名前を決めたら、ロゴを作って装飾しましょう。ロゴは、同じ MBA の原則に乗っ取って定型化された MBA である名前でかまいません。Font Meme フォント変換のようなショートカットは、手早く十分なデザインを作ることができます。

以下はその一例です。

2. プロダクトをドキュメント化する

自分が書いたコードがどんな働きをするかはわかると思います。けれど、CEO や新しいインターンが「これは何をするものだろう?」という疑問を持った際に、あなたが不在で、質問に答えたりデモを見せたりできない場合どうすればいいでしょうか?

ドキュメンテーションは、データサイエンティスト/開発者にとって良い慣習なだけでなく、自分の成果を見つけてもらうきっかけになります。事業が求めているプロダクトやサービスを、別の事業が提供しているか調べるため、まず Google 検索を行う事業は 71% に上るそうです。同様に、wiki の作成や、コードへのコメントは、ユーザーグループにとって有益であることに加えて、検索可能なコンテンツとなり成果物が見つけてもらいやすくなります。

ドキュメンテーションを作成する際には、以下の点を特定しましょう。

  • そのデータプロダクトが解決する一番の問題
  • 主な特徴と解決方法
  • 主要な定義
  • 解説が必要となる、主要な技術的視点

プロダクトの開発過程をドキュメント化すると、プロダクトへの信頼を築きやすくなります。ドキュメンテーション内に、MBA の名前やロゴを含み一貫した文言を使用することで、さらにブランディングを進めることができるでしょう。

3. チャンピオンを特定する

あなた以外の誰が、あなたが解決しようとしている問題や、そのデータプロダクトがどんなソリューションを提供するかについて、理解していますか?

その問題の影響を受けている人を探し出し、自分の成果物を共有しましょう。そして、ビルドに参加したり、あなたのプロダクトを理解しているチームメンバーに目を向けましょう。こうしたチャンピオンたちは、このソリューションを評価するであろう他の人たちに、あなたの成果を薦めることができるのです。

チャンピオンの特定は、消費者を対象とした事業におけるカスタマーアドボカシー(注:口コミを主とするマーケティング手法)と似ています。購入を決める際に、口コミは、国や世代を超え た83% の消費者にとって主要なインフルエンサーとなっています ( 出典 : ニールセンによる調査 )。あなたのデータプロダクトのチャンピオンはトップのセールス人員となり、あなたが不在でもツールへの信用を与え、質問に答えてくれるでしょう。

4. タイミングがすべて

ローンチの前には、現在の事業の状況を考慮し、ローンチのタイミングを適宜合わせましょう。データプロダクトの完成した時が、必ずしもローンチのベストタイミングではないからです。例えば、プロダクトチームは大きなバグの修正を行っているところで、新しいアイデアどころではないかもしれません。逆に、直近の関連した広報活動(ブログ記事など)が、クロスプロモーション(あるプロダクトで他のプロダクトを宣伝することなど)を利用したリリースなどに最適なタイミングかもしれません。

また、その他の最近のデータプロダクトが、いつリリースされており、どのような評価を受けているか調べましょう。関係者は新しいダッシュボードやモデルで溢れかえっていると感じているかもしれませんし、「分析まひ」(情報の分析に時間を割きすぎて思考停止すること)を引き起こすかもしれません。

5. 対象を把握する

もしあなたのチャンピオンが満足していないのであれば、プロダクトは一瞬で精彩を欠いてしまうかもしれません。チャンピオンやユーザーと良好な仕事での関係性を築くことは、データプロダクトの初期そして長期での成功に大切です。

あなたの作ったものを利用し、役立てることができるだろうオーディエンスを把握し、支援しましょう。このターゲット層を念頭に置き、チケットへのコメント、Slack への投稿、チャット、関係者グループにメールの送信、または直接ターゲット層との会話などを行いましょう。

ターゲット層に好まれているチャンネルを使い、開発の進捗や、リリース、そしてフィードバックをやりとりします。こうしたコミュニケーションの積み重ねはデータプロダクトに早期から信頼を築いて行きます。開発サイクルのリクエストがやってくる度に、リクエストへ思慮深い謝辞を述べることで信頼を築く機会を持てるでしょう。

機械学習のデプロイフレームワークを開発したソフトウェアエンジニア達が集まる Indeed のデータサイエンスプラットフォーム担当チームは、2017 年に、Indeed 内の複数のテックオフィスを各国で訪問し、データサイエンスのプラットフォームのフレームワークについて共有しました。これは、オフィス間のターゲット層と関わりを持ちかたとして非常に良い例です。

6. 発表する!

頭の中にある何かの仕組みを描けるのは、あなたしかいません。デモの実施は、新しいデータプロダクトがどんなものかを知らせる上で強力な手段となります。良いやり方としては、ミニマムバイアブル(実用できる最小限)なデータプロダクトやプロトタイプを早期にチャンピオンに提供することです。

例として、最小限データを利用して動作するアプリケーションの作成、ダッシュボードのモックアップのスケッチ、またはスクリーンショットの作成などが挙げられます。その他の消費者向けプロダクトの例は Forbes をご覧ください。セールスのリード対象を判定する機械学習モデルを、セールスの組織に説明するデモとして、プロダクトチームは、ユーザーがモデルの機能の値をスライダーで変更した際に、モデルの結果を返してくれるシンプルでインタラクティブな web アプリを作りました。

7. 結果に当事者意識を持つ

「私は賢いのではない。問題と長く付き合っているだけだ。」— アルベルト・アインシュタイン

あなたは、自分のデータプロダクトの理論的基礎や実装を気に入っているかもしれません。しかし、最終的にデータプロダクトの成功を決めるのはユーザーです。長期的なマーケティングとユーザーの定着は、どれだけあなたが信頼を保証できるかにかかっています。信頼性は、あなたのデータプロダクトのブランド、あなた自身の評判、そして技術的な信用度を築く上での鍵となります。これはその他の、現在または将来あなたのデータプロダクトをマーケティングする際にも影響します。注目すべきなのは、これは完璧という意味ではないことです。問題に素早く、完全に、そして透明性を持って取り組む、ということを意味することが多いです。

データプロダクトの主要な指標を監視し、動作やどこに影響を与えているかを確認しましょう。積極的にフィードバックを求め、対応しましょう。データプロダクトが元々の目的を達成しているか評価をし、改善することでターゲット層にさらに適応できるか判断をしましょう。

もし影響が出ていない場合や、ツールが利用されていない場合、あなたが解決をしようと考えていた問題に対する当初の推測をもう一度見直しましょう。そして、何が機能していないのかユーザー(または非ユーザー層)から話を聞きましょう。壊してまた始め直し、そして新たな視点でさらに良いものを生み出す心意気を持ってください。データプロダクトの開発を続け、改善を行うには忍耐力が必要となりますが、データプロダクトの質を向上し、その他のマーケティング活動に役立つはずです。

最後に

分析コミュニティ外部のチームが、チームや企業がさらに効率化できるあなたのデータプロダクトについて知るかどうかは、あなたのマーケティング活動次第です。プロダクトについて周知を開始するのは、プロダクトの完成まで待つ必要はありません。初期の要件が集まり次第、ドキュメンテーション作成、チャンピオンの特定、そして支援活動などからマーケティングを始めましょう。

とは言え、質の高いデータプロダクトを作り出すのはデータサイエンスをマーケティングすることよりも重要な事柄のため、何をマーケティングするか選びましょう。データサイエンティストの信頼性は、あなたのデータに基づく提案と行動を信用する上で重要となります。賢くそれを育てるようにしてください。

もしあなたがデータプロダクトを開発し、それが結果を出せるようにすることに情熱を感じている場合、Indeed のプロダクトサイエンスおよびデータサイエンスについてご覧ください。

Indeedとオープンソース: Outreachyスポンサー就任のお知らせ

Indeed はオープンソースコミュニティへの支援に取り組んでいます。このたび、Outreachy のスポンサーに就任いたしました!

Outreachy とは?

Outreachy は、オープンソースコミュニティ全体における多様性と、その受け入れを支援しています。少数派に属する人々に有給インターンシップを提供することで、Outreachy はコミュニティ内の多様性受け入れの状況を向上しながら、各個人が実際にオープンソースコミュニティに貢献する有意義な機会を生み出しています。様々な人々が参加することはオープンソースにとって有益であり、そしてそれに向けて Outreachy は貢献しています。Outreachy は 2018 年の12 月から 2019 年の3 月までのインターンシップ期間に、46 名のインターンの受け入れを行いました。彼らのプロジェクトはこちらからご覧いただけます。

Outreachy の共同主催者である Marina Zhurakhinskaya 氏からは以下のコメントをいただきました。「Outreachy は Indeed をスポンサーに迎えることができて、わくわくしています。また、Indeed のFree and Open Source Software (FOSS) における多様性への支援にも感謝しています。こうした助けがあって、より多くの Outreachy の応募者が FOSS へ貢献し、さらに多くのインターンが充実した経験を得るための支援を、私たちは行うことができます。」

Indeed とコミュニティ

オープンソースコミュニティの中で、さらに積極的な役割を果たしていく中で、 Indeed はその他にも提携、スポンサーシップ、そして組織への参加などの検討を続けています。Outreachy のスポンサーに加え、Indeed は今年、クラウド・ネイティブ・コンピューティング・ファウンデーション (CNCF) に加入し、Python ソフトウェア財団Apache ソフトウェア財団オープンソース・イニシアティブ、そして Webpack のスポンサーに就任しました。


Indeed のオープンソースプロジェクトに関する最新情報は、オープンソースのサイトをご覧ください。Indeed 内のオープンソース関連の求人に興味をお持ちの方は、採用ページをご覧ください。