Indeed MPH:高速で小さいイミュータブルなキー・バリューストア

膨大なデータを抱えるアプリケーションをスケールする際に、どのようなストレージを導入するべきなのでしょうか?どうしたら大量のデータセットを安全に保存し、効率的に読み書きを行えるのでしょうか?こうした疑問は、よく SQL か NoSQL のどちらを使うべきかという議論になりがちですが、どちらもそれぞれメリットとデメリットがあります。

ですが、もしデータデースにまつわる問題を全て回避できる三番目の選択肢があるとしたらどうでしょうか?

コンシューマは数分おきにしか更新を必要としていないかもしれません。この場合、データセットをメモリ内に読み込めると、劇的にアクセス速度があがり、大規模のスケールが可能になります。このことから、 Indeed では多くのプロジェクトで、必要なデータの完全なコピーを、各コンシューマに渡しているので、 SQL 対  NoSQL の議論をする必要がありません。これを実現するにあたり、私たちは最小完全ハッシュ関数に基づく新しいキー・バリューストアを作り、データサイズを管理しています。私たちは、 Indeed MPH と呼ばれる Java ライブラリとして、このストアを実装しました。

データ配布の課題

一般的に、データの全コピーをコンシューマに渡すのは実現が難しいのですが、それには理由が二つあります。一つは、データがほぼ読み取り専用(read-only)である必要があること、もう一つは、配布や処理を防いでしまうほどデータが大きくてはいけない、ということが課題にあげられます。

一つ目の課題は、バッチの更新を実装すれば解決できます。毎日、毎時間、もしくはもっと頻繁にデータを再配布させれば、データの有用性を保ちつつ 読み込み専用として維持できるでしょう。けれど、サイズを小さく留めておくにはどうすればいいのでしょうか。分かったことは、二つ目のサイズの課題に対しても同じようにバッチ更新の方法で対処できる、ということでした。

最小完全ハッシュ関数(Minimal perfect hash functions, MPH

読み込み専用のデータセットを生成するということは、事前に自分のデータセットのキーを全て把握しているということです。これは、データセットのサイズを削減する最適化を可能にします。ハッシュテーブルの場合は、完全ハッシュ関数の計算が出来るようになります。

完全ハッシュ関数は、すべての要素を相異なる整数に衝突なくマッピングします。数学用語では単射と呼ばれます。 最小完全ハッシュ関数 は n 個のキーを 0 から n-1 までの n 個の連続した整数にマッピングします 。こうした構造は、テーブルを 100% 活用している状態を維持しながら、一回のディスクシークで参照できるようにします。他にもまだメリットはあるので、後ほど述べたいと思います。

こうしたハッシュ関数を見つけるのは難しく、事実、誕生日のパラドックスは、ハッシュの範囲がキーの個数の何倍も大きい場合でも全くキーが衝突しないというのはありえにくいとしています。けれど、最近の研究の成果のおかげで、効率的なテクニック質の高いライブラリを使用して、最小完全ハッシュ関数を生成できるようになりました。これらのテクニックは、小さな不都合はあったものの、私たちのメソッドを成功させました。結果として生成されたハッシュ関数自体が、キーごとに ~2.2 ビット の探索テーブルを必要とするので、定数サイズにはならないのですが、この探索テーブルはブルームフィルタのサイズの一部くらいしかないため、 100 万件のエントリに対し 26MB 程度を必要とするだけなのです。実用上では、この探索テーブルのサイズは保存されたデータのサイズに比べれば、取るに足らないものと言えます。

実用性

MPH は、キーから 0 から n-1 の整数へのマッピングを提供しますが、やはり実際のテーブルを実装する必要があります。メモリ内にテーブルを保存する場合は、通常配列の形でデータを保存します。これをオフラインのストレージに変換するためには、プログラミング言語の配列が暗黙のうちに設定しているメモリーオフセットを明示的に作らなければいけません。私たちの表現は 3 つのファイルを持つディレクトリでした。

  • data.bin: raw のシリアライズされた key/value のペア
  • offsets.bin: data.bin 内のデータの(一定サイズの)オフセット配列。i 番目の値がハッシュ値が i であるエントリのオフセットに対応する。
  • meta.bin:  シリアライズされたハッシュ関数そのものとその他の必要なメタデータ

以下の図は、色から動物へのマップを持つ場合の、このデータ表現を表しています。


この表現の便利な部分は、 data.bin が、ハッシュ関数に依存することなく、そのままイテレートできる生データであるということです。加えて、キーがユニークでさえあれば、同じ data.bin を異なるキーでインデックス化するような複数のハッシュ関数を構成することも出来ます。

この表現のデメリットは小さなエントリが沢山存在するときに顕著になります。この場合は、オフセットのサイズはデータ自体と同じ位かさらに大きくなります。極端な例をあげると、データに 4 ビット整数から半精度浮動小数点数(half-precision float)への 7 億 5000 万個のマッピングが含まれる場合、 data.bin は 7.5e8 * 6 = ~4.2G になりますが、 offsets.bin にはなんと 7.5e8 * 8 = ~5.6G も必要になるのです。この例では、全てのエントリが一定のサイズである点を活かすことができ、オフセットを保存することなく、 data.bin に直接インデックス化できるのです。けれど、サイズが可変の場合も最適化したいと考えました。

こうした高いコストは、小さなエントリを扱う際に特に発生するものです。もしエントリが大きい場合、オフセットのサイズは、それに比べれば取るに足らないものでしょう。合計サイズが小さいので、1 エントリにつきバイトではなくビットのオーダーで rank 辞書 として表現することが可能です。もう少しオーバーヘッドを大きくして良い場合は、同一のデータ構造上での定数時間で、 select と呼ばれる rank の逆関数を計算することができます。何故これが便利なのでしょうか?もし、この辞書で data.bin の中の全エントリの開始バイトの集合を表すことにするならば、  i 番目のエントリのオフセットを見つけるには、 select(i) を計算すれば良いのです。

この構造は以下のようになります。この場合は、ハッシュ値で data.bin をソートする必要があります。


更に最適化するためのヒントは、データ内のまさに通常の構造の中にしばしば存在します。例えば、 long を long のリストへ(1つのバイトをカウントに使用して)マッピングする場合、 ( key と valueを含む)  個々全てのエントリiのサイズは、リストの長さが xi だと仮定すると 8xi + 9 として表すことができます。k 番目のエントリのオフセットは ∑(8xi + 9) = 9k + ∑8xi = 9k + 8x となります。言い換えると、保存しなければいけないのは、 x だけなのです。これは実際のオフセットよりもずっと小さいので、 select を使ったアプローチを利用すると大きな削減となります。この場合は、リスト内に平均 2 つの要素を持つ 1000 万件のエントリがある場合、その data.bin のサイズは 10000000 * (9 + 16) = ~250Mになり、圧縮された select の手法は ~2.5M に収まります。

私たちの実装はオフセットの配列と select の手法両方のサイズがどうなるか計算し、適した方を選択するようになっています。

さらなる最適化

キーを捨てよう!

衝突する値もなく、私たちの探しているキーはテーブルの中にあると分かっていれば、キーの存在を検証する必要はありません。かわりに、値そのものや、値を元にして他のソースからキーを検証できるかもしれません。そして最後に、低い確率で誤検出をしてもよいならば、キーがテーブル内にあるかどうかをブルームフィルタを使用して、確率論的に検証することが可能になります。

もう一つこれよりも良い選択肢に、元のキーの集合の中では衝突しないような固有のハッシュを既に計算したので、キーの k ビットの署名(どんな一般的なハッシュの下位ビットでも可)を保存する方法があります。同じハッシュ値になるような元の集合にないキーは、2^(-k) の確率でしか署名が一致しません。これはブルームフィルタを使用するときよりも、ずっとマシなエラー率です。

これら全ての場合において、テーブルからキーを削除することができます。値が小さければ、キーはテーブルの大きな割合もしくは過半数を占めている可能性があります。

キーでなくハッシュでリンクさせる

あるテーブルの値が他のテーブルの外部キーになっている、または外部キーを含んでいるなど、複数のテーブルを一緒にリンクさせたい状況はよくあると思います。

MPH 関数を使用するもう一つの利点は、小さな整数の範囲にキーを圧縮してくれるところです。ハッシュ値をキーの代わりに保存できるので、殆どの実践的な用途では、4 バイトの整数におさまります。それに対して、その他の外部キーの多くは 8 バイトの long やそれ以上の大きさ になります。これは、より小さいというだけでなく、二回目の参照の際にハッシュを再計算する必要がないため、読み込みもさらに早くなります。

コードとベンチマーク

わたしたちは、自社開発した MPH のコードをオープンソース化しました。ベンチマークとして、別のオープンソースの選択肢といくつか比較してみます。

  • SQLite3:  1 つのファイルでできている複製に適した RDBMS
  • LevelDB:  Google の LSM ツリー構造のキー・バリューストア
  • lsm:  Indeedの LSM ツリー構造のキー・バリューストア
  • discodb:  MPH に基づいたイミュータブルなキー・バリューストア
  • TinyCDB:  完全でないハッシュを使用したイミュータブルなキー・バリューストア

これらの選択肢は、同じような機能セットを持っていない点をご注意ください。SQLite関係演算を全て提供し、 lsm や LevelDB は範囲のクエリを提供します。そして、これら 3 つのストアはミュータブルです。ここではこれらのソフトウェアに共通した一機能だけを見ていきます。

本番環境のデータにもとづいた、概念上リンクした 2 つのテーブルの結果を見ていきますが、こうすることで、上記に説明したハッシュでリンクする最適化の効果を示すことができるほか、さらに自然な表現が SQLite でできるようになります。この最初のテーブルは 5000 万件の 64 ビットのハッシュを項目の小さなクラスタにマッピングしたものです。これらの項目は 80 ビットの整数で 16 桁の Base32 文字列として表されます。二番目のテーブルは、クラスタ内の各項目に対応するハッシュにリバースマッピングしたものです。

Indeed のキー・バリューストアの特筆すべき点は、任意のシリアライズ手法を様々なプラグインの中から選んで使用することができる点です。公平に比較するために、LSM ツリーと MPH については、単なる文字列から文字列のマッピングの場合と、 2 つの最適化を適用した場合のテーブルサイズの両方を含めました。固定長の 8 バイトの long の値としてキーをエンコードし、 80 ビットの整数の短いリストとして値をエンコードしました。 SQLite に関しては、整数としてキーをエンコードしました。

文字列のマッピングの通常のケースでは、 LevelDB 、 lsm 、MPH は全て同等のサイズで、他のソリューションにくらべて格段に小さいものとなります。より効率的なシリアライゼーションを適用すると、 lsm と MPH はさらに小さくなり、MPH はこれによりさらに、データサイズの規則性を活かし、一番サイズの小さい選択肢になります。

ここでは、 lsm と MPH の最も良いシリアライゼーションだけを考えます。 MPH は、上記で説明した、キーを保存せず、その後で上記のテーブルを完全ハッシュ値経由でリンクする最適化を利用した場合のサイズも示しています。 SQLite は、両方の列をインデックス化した際のサイズを併記しています。このようなインデックスを作ると、前述の実験で作ったようなテーブルは不要になります。この場合は、 SQLite のインデックスは discodb と TinyCDB に関しては、前述の実験のテーブルを合わせたサイズよりも小さくなり、LevelDBでは同じ位になります。しかし、 MPH は最後まで他のものより小さく、事実、全ての最適化が適用された理想的なケースでは一桁分小さくなります。

ハッシュに基づくソリューションは、少ないシーク回数で済むので、より早くなる傾向があります。MPH は全体の中でも最も速く、抜きん出ています。

書き込みのパフォーマンスは lsm と MPHが最も高いパフォーマンスを見せています。 TinyCDB はこの時点ではデータの破損により、除外されています。 4GB と決められた保存容量がデザインされているのですが、 3GB の時点で、キーの 30% を取得することができなくなりました。

お試し下さい

IndeedのMPHは、Gitでオープンソース化し、利用可能となりました。

もし、既にキー・バリューストアをサーバーに移している場合、 Indeed の MPHテーブルはサイズを小さくし、読み込みを早くできるかもしれません。コンパクトな表現を使用して、より多くのデータを同じ容量内に保存し、以前には大きすぎると考えていたデータサイズも削減することが可能になります。集中型データベースの代替案をまだ決定していない場合、是非ご検討下さい。

Job Spotter を iOSへ: Indeed初の React Native アプリ

2013 年、 Facebook は ReactJS をリリースし、(Indeed も含む)多くの人々の Web 開発に対する考え方を変えました。そして 2015 年に Facebook が  React Native をリリースすると、開発者が JavaScript と React を使用して、パワフルなネイティブモバイル体験を生み出せるようになりました。 Indeed でも Job Spotter というアプリの iOS 版リリースをちょうど計画しており、React Native に期待を寄せていました。

ネタバレ注意:期待通りでした。

React React Native について

React のウェブ開発に対する捉え方は独特で、関数ごとにコードを分けるのではなく、コンポーネントごとにコードを分けることを奨励しています。各コンポーネントは必要なレイアウト、スタイリング、ビジネスロジックを全て含んでおり、多くの場合それらは同じファイル内にあります。

React のその他の重要な特徴は一方向のデータフローです。他のフレームワークで用いられるような双方向のフローに比べ、 React を利用した環境では、状態(state)の変化がアプリにどんな影響を与えるか、非常に簡単に確認できます。こうした一方向のデータフローは、 Redux のようなパワフルなライブラリも作成可能にしました。

そしてReact Native は、 React を利用した、 JavaScript での Android/iOS ネイティブアプリ開発を可能にします。ウェブ開発者が、あまり知見をもたないネイティブモバイル開発技術を学ぶことに時間を割かずとも、パワフルなネイティブアプリを開発できるようになりました。

使用するメリット

React Native のおかげで、私たちのモバイル開発サイクルのスピードは上がりました。追加設定がいらないツール達を使用することで、ローカルの iOS シミュレータを使用して React Native アプリを実行できるのです。これにより、 Web 開発と同様に、変更をテストするためにアプリを更新する作業が、再コンパイルせずにできるようになりました。さらにありがたい事に、アプリケーションの状態はこのホットリロード中も維持されます。これらの React Native の開発機能は、時間と労力を節約し、新しい機能の開発に集中させてくれるものだと思います。

また、以前の React に関する知識を活用できたので、新しい言語を学ぶ必要もなく、すぐに開発に取りかかることができたのですが、私たちのチームに Objective-C や Swift での開発経験者が一人もいなかったので、これは非常に助かりました。一部のカスタムイベントログの作成を除き、React独自のコードを書く必要がほぼなかったことも、得した感じでした。

もう一つ、 React Native の興味深い点をあげるとすると、インラインスタイルを使用する必要があることです。これにより、 CSS の「クラス」は実際のところ JavaScript のオブジェクトとなっているのです。初めは変な感じがしましたが、慣れた今はとても気に入っています。オブジェクトを扱っているので、パワフルで、オブジェクトの組み合わせと拡張が可能な CSS クラスを作成ができるため、従来の Web アプリで見られたようなスタイルの重複を避けられます。異なるニーズに合わせて、同じスタイルを使い回すのではなく、異なる体裁や機能を必要に応じて開発することが可能なのです。

また React Native は、スタイリングをより一貫してシンプルにするために作られた新しい CSS モジュールの Flexbox を多用しています。これは、 CSS の従来の妙な挙動を取り除きました。私たちのチームでもFlexboxを色々学習した今では、 Flexbox の宣言型アプローチを使うことで、従来の CSS を使用するよりも、素早く新しいコンポーネントをスタイリングできるようになりました。

デバッグも想像よりもずっと簡単でした。 Chrome のデベロッパー・ツールのデバッガーに接続し、 Web 開発と同じやりかたでデバッグをするだけでした。 React Native では他にもいくつかツールが利用できるのですが、エレメント・インスペクターという機能はコンポーネントに適用されるスタイルを判断します。また、ネットワーク・インスペクターはアプリが作成する XHR リクエストを解析してくれます。慣れたツールを使えるので、問題が発生した際にも追跡し解決しやすいと思います。

課題

React Native はより高速に開発することを可能にしましたが、 React Native 自体も短期間で開発されたものです。 Job Spotter というiOSアプリを開発していた二ヶ月の間に、 React Native は六回もリリースを行いました。新しいバージョンがリリースされる度に、こちらもバージョンを更新し、アプリのリグレッションテストを全て行わなければなりませんでした。

もう一つの大きな課題は、React Native の新しさです。カメラやファイルシステムへのアクセスやパーミッションの処理などの、デフォルトで提供してほしい多くの機能がサードパーティ(外部の)ライブラリを必要としています。 React Native を使用するコミュニティでは、 React Native のコアでまだ必要とされる作業を必死に行っています。それでも場合によっては、これら外部ライブラリはコア・ライブラリに望むような品質を持ち合わせていないこともあるので、私たちはライブラリに対してパッチをあてることもありますが、実際にそうしたパッチをあてているライブラリは複数あります。

また、ナビゲーションやスクリーンの遷移に対して利用できるコンポーネントには一貫性がありませんでした。Navigator のコンポーネントは、遷移するごとに特定のアニメーションが必要とされ、空の遷移をする選択肢がない、という問題がありました。これは当初、シーンの遷移を変な風にしていました。NavigatorIOS コンポーネントを使用しようとしましたが、インターフェースがわかりにくく、シンプルではなかったほか、Navigator 機能の多くが欠けていました。

同様に、 TabBarIOS のコンポーネントはとても良い感じに動作するのですが、遷移は、私たちの使用していた Navigator から完全に独立していました。私たちは、その一つで全てを処理できる Navigator が欲しかったのです。そうした Navigator を欲しい時には、ナビゲーションに対応した異なるコードパスを使用する必要がありました。

挑戦する価値あり

こうした課題があるものの、React Native は私たちの使う技術に合っているので、今後も使用していきます。Android や iOS のエキスパートにはならずとも、Web 開発の強みを活かして、豊かなモバイル体験を作っていければと思います。 React Native が成熟した際には、現在抱えている問題の多くは解決すると見込んでいます。

そんな私たちの次なる目標は、 既存の Job Spotter の Android ネイティブアプリを、 React Native 版に変更する事です。

学術界から民間企業への転職

Indeed のデータサイエンティストの視点

自分の指導教官に研究から離れたいと伝えたときのことを、よく覚えています。ストレス。恐れ。口に出してはっきりと、「これが自分のやりたいことではないと思う」と伝えたこと。その後に感じた、安堵。

当時、私は論文の計画、複数の記事の発表、教職、そして研究助手を何とか掛け持ちしていました。その間、自分が望む暮らし方や働き方にもっと合っている環境で、自分が博士課程で学んだスキルを活かせるデータサイエンスについて、リサーチを始めていました。そんなわけで、私は学術界を離れてスキルの方向転換をし、民間企業でのデータサイエンスの仕事を探す決意をしました。

もちろん、私の体験は変わったものではなかったと思います。パーマネント職は、雇用保証としては最上級だと喧伝されがちです。けれど、博士号取得者の数が増えている一方で、募集中のパーマネント職の数は減ってきています。さらには、給与は上がっていません。私が話を聞いた、学術界を離れたデータサイエンティストの多くは、「教授への道のりは長く不確か」であり、しばし、「精神的ダメージを負う」くらいの不安に満ちていると言っていました。対照的に、民間企業が大量のデータの活用を望むようになり、Indeed に掲載されるデータサイエンティストの求人は、2013 年から爆発的に増加しています。

過去 4 年間で、Indeed.com に掲載されるデータサイエンティストの求人は 4 倍になった

注記: 上のグラフは、2014 年 1 月 1 日から 2017 年 11 月 1 日の間に、全世界で「データサイエンス」や「データサイエンティスト」というキーワードとともに Indeed に掲載された全求人の 7 日間の移動平均を、パーセンテージで表示しています。データは、Indeed のオープンソースデータサイエンスプラットフォーム Imhotep を使用して取り出されました。

世間から隔絶されている学術界の性質から、学術界を離れたい人々も、「本当の世界」がどんな感じなのかわからない、ということがよくあるのではないでしょうか。私が 2 年前に学術界を離れた際に、よく「どうして学術界から離れるの?」や「雇ってもらいやすくするには、どうしたらいい?」などの質問を、よく聞かれました。そして、そんな中でも最も実存的な質問だったものがこれです。

「学術界を離れても色々大丈夫?」

こうした質問に答えるために、学術界を離れ Indeed で働く 11 名のデータサイエンティストプロダクトサイエンティストの助けを借りました。簡潔に留めるため、この記事内では、彼らを「データサイエンティスト」などと呼んでいますす。

私が話を聞いたデータサイエンティスト達は、ある人はリベラルアーツ、ある人は STEM 教育、というように様々なバックグラウンドを持っていました。Indeed が学術界を離れてから最初の仕事、という人もいれば、 IT 業界に移って 10 年近く経つ人もいました。学術界を離れた時期もそれぞれで、「あとは博士論文だけ」という段階だった人もいれば、助教授を務めていた人もいました。まずは別の学術系の仕事を探した人、探しもしなかった人、探すつもりではなかった人もいました。結婚や子供を持つなどの大きなライフイベントが、学術界に留まることを考え直す強いきっかけになったと言うデータサイエンティストもいました。

この長い投稿が、民間企業へ思い切って転職することを考えている研究者たちにとって、少しでもアドバイスや励ましになることを願います。

産業界に移るメリット

単純に、産業界に移ることで、時間やエネルギー、そしてお金の使い方をもっと自由にできるようになります。どこに住めるか、そして、どんな統計方法を利用することができるか、と言ったこともそうです。

あっという間に、もっと自主的に住む場所や職場を選べるようになります。あるデータサイエンティストは、ポスドクのフェローシップをいくつか経験した後に民間に移ったことで、「色んな仕事の機会があり、もっと将来の見通しの立てやすいキャリアパス」を持つことができたと言います。

元研究者たちが産業界に移る際に一番変化があるのは、自分の時間がもっと増えて、気持ちにもずっと余裕が出る、と言う部分でしょう。データサイエンティスト達の中でも、「週末を取り戻した」ことや「家に 17 時に帰宅後に仕事をする必要がなくなった」ことが話に上がっていました。新しくできた時間とお金で、料理、サイクリング、写真、そしてスポーツ分析などの新しい趣味を見つけた人もいました。

民間企業で働くということは、別の形での保障が生まれます。つまり、より良い給与です。「給与が 2 倍になり、やらなければいけない仕事量が半分になった」と言う人もいれば、「経済的に苦労しなくて済むのは、本当に気分がいい!」と言う人もいました。Indeed のデータサイエンティストの平均給与米国の平均収入学術界のポスドク職や教授職の平均収入よりもずっと上です。私も、新しい仕事の初給与で新しい靴を買った時に、お金のやりくりを心配しなくて済むのだ、と気づいた時のことを、はっきりと覚えています。

こうした個人的な暮らしへのポジティブな影響以外にも、研究職を離れたデータサイエンティストたちは仕事においてのメリットも話してくれました。すぐに利用できるデータの量や、研究内容が論文として発表可能か、と言うような心配が減るおかげで、「学術を離れて方法論の自由を享受している」と言う人もいました。話を聞いたほとんど全員が「自分が影響を及ぼす規模、そしてそのスピード感」を楽しんでいるということを述べていました。

民間企業のスピードと協力体制

研究職ではない仕事は、特にスピードと協力体制などの面で、新参者にとっては驚くような重要な違いがあります。

私が話を聞いたほとんど全員が、民間企業では「素早く動き開発を続けることに常に集中して」おり、プロジェクトのサイクルがより短く早いと言う話をしていました。「全てが正確になるまでプロジェクトに時間を費やす」と言うような研究者の傾向は「産業界に移ると邪魔になる癖」になります。ある人はこう言っていました。「学術界では、あるトピックや研究の分野に何年も留まると思いますが、企業では四半期ごとに新しい事に取り組むことを気持ちの面で受けいれる必要があります。」

一番大きな違いは、おそらく孤独に働くことがなくなることでしょう。「学術界は、孤立していて、自分だけのものと主張できる個人の功績を重んじます。」と、あるデータサイエンティストは言います。「けれど、企業で一番結果を出すのは、人と上手に協力しあえる人でしょう。」

協力し合う機会は、民間へ転向する研究者にとっても特に有意義なものかもしれません。「何かに困っていても、一人でやる必要はないのです。」と、ある人は言います。定期的にチームに進捗共有をすることや、プロジェクトに取り組むために何週間も何ヶ月もまとまった期間消えてしまわないことが、チームでは望ましいとされます。また、話を聞いたデータサイエンティスト全員が、研究のためにコードを書いた経験がありましたが、通常は「自分にしか影響しない環境だった。コードベースを他の5名と共有し、失敗してお互いに迷惑をかけないようにすることを、すぐに学ばなければならなかった」そうです。

研究から民間企業に持って行けるスキルとは

研究を必死に行なっていると忘れがちですが、研究者は自分の専門分野以外にも、民間企業で役立つスキルをいくつも持っています。ある意味では、「研究者は、従業員が一人しかいないスタートアップになるように鍛えられているとも言えます。情報を集め、資金と支援を見つけ、希少なリソースをやりくりし、研究を進めるために、技術的なスキルと技術に関係ないスキルを身につける必要があります。」と、あるデータサイエンティストは言っていました。

人によっては、こうした持ち越し可能なスキルは、コードを書けることや、統計、モデルの構築だったりするかもしれません。別の人にとっては、研究者にとって当たり前で自分では見過ごしている、技術とは関係ない様々なスキルが、民間企業にとって価値あるものかもしれません。例をあげると、研究が個々で独立した仕事であるため、研究者は貴重な時間やプロジェクトのマネジメントスキルを身につけています。また、独自にリサーチする能力や独学する能力も、誇張しきれないほど重要です。「多くのデータサイエンスの問いは複雑で、必要なスキルを全て備えている人なんていません」とある人は言います。「だからこそ、独学は超重要です。」

また、研究者は有用なコミュニケーションスキルを身につけています。あるデータサイエンティストは「自分の議論のあら捜しをしようとする専門家の前で話す練習をたくさんしてきたので、クライアントに結果を提示することは楽なものでした。」言いました。初級の授業を教える環境から、同僚である専門家にプレゼンを行う環境に移ったことで、「適切なオーディエンスに対してプレゼンの提案をするいい練習」になった、という人もいました。いくつもの論文や、本、記事を執筆してきているので、ドキュメンテーションや、プロジェクトのアップデート、そしてブログ記事などを書くのは、そんなに難しいことでもありません。

最後に、クリティカルシンキングの価値は計り知れません。研究者は、懐疑的で「大きく、複雑で、ぐちゃぐちゃな問題」に取り組むように鍛えられています。「強固な方法でプロジェクトを作り上げ、自分の仕事の注意すべき点を全て理解できる」だけの知識を身につけているのです。

民間企業で採用されるには

私が話を聞いたデータサイエンティスト達は、自分や自分のスキルを見直すために、色んなアプローチをしていました。読書、学校やオンラインで授業を受講、夏の間にインターンシップとして働く、学内の進路カウンセラーと相談、などがありました。多くの大学では、これらの情報を少額または無料で提供しています。

また、データサイエンスのスキルを習得しながら、サイドプロジェクトのことを個人ブログで書くことを勧めていた人も何名もいました。DataKindData for Democracy などの団体は、データサイエンスのスキルを磨きたい新人のデータサイエンティスト向けのボランティアプログラムを提供しています。また、「自分のウェブサイトに実績として掲載できるような、プロボノで行えるデータ関連のプロジェクトがないか周りの人に聞いた」と言う人も数名いました。少なくとも 11 名のデータサイエンティストのうち 2 名は、こうしたブログが、最初の民間企業での就職に役立ったと言っていました。

民間に転向したデータサイエンティストの中には、学術界にいる当時から、研究プロジェクトでの使う言語を Matlab や Stata から Python や R などに「意識的に切り替えた」そうです。「学業を、よりわずかに実用的で技術的な方向に進める」ことを試みた人もいました。学術の分野で通常学ぶことがないスキルの中で最も一般的なものの一つは、SQL です。幸い、豊富な出版物やオンラインの資料があるので、SQL は比較的簡単に学ぶことができます。私たちのおすすめは SQL in 10 Minutes by Ben Forta と Learning SQL by Alan Beaulieu です。

学術界を離れることを検討している他の研究者と出会うのも、役に立つでしょう。勉強会のグループを作って、ホワイトボードでのコーディングの模擬面接の練習まで一緒にしていたという人もいました。地元のミートアップに参加したり、データサイエンスの分野をさらに知るための面談を受けた人もいました。

Indeed はデータサイエンティストを採用中です!

Indeed のデータサイエンス、プロダクトサイエンスのチームは、統計とプログラミングができる人を探しています。データサイエンスチームは機械学習の十分な知識を持つフルスタックエンジニアを探しています。プロダクトサイエンスチームは、運営の問題の優先順位をつけ、問題解決することにフォーカスしています。どちらのチームでも同じように大切なのは、ソフトスキルです。好奇心、向上心、そして自分の限界に対して謙虚であり、きちんとそれを見つめられること、そして、人々の仕事探しに役立つことに、本物の情熱を持っていることです。

応募に興味が出てきましたか?Indeed では、あRobyn Rapらゆる年齢、経験のレベルのデータサイエンティスト、プロダクトサイエンティストを採用しています。そして元研究者も歓迎しています!募集中の求人は、こちらからご覧ください。

方法論

これは、明らかに小さなサンプル数からなる、定性の自己報告による研究です。もし、この記事があなたの経験を代弁していたら(していない場合も)、ご意見を聞かせてください。あなたは、データサイエンスの職に就くために学術界を離れましたか?どんな部分が似ていて、違っていましたか?コメントお待ちしています!


学術界から業界に転向した話を、時間を割いて聞かせてくれた Christo du Plessis、John Jardel、 Evan Koh、 Eric Lawrence、Chris Lindner、 Donal McMahon、Elias Ponvert、Ke Sang、Annette Taberner-Miller、そしてWenzhao Xuに心から感謝します。Trey Causeyは記事のドラフトに素晴らしいフィードバックをくれ、James Beach と Leah Pasch は最終稿の編集に力を貸してくれました。そして、学生が学術界を離れて行くときに、理解を示し協力してくれる全ての指導教官に感謝します(Pamありがとう!)。