あなたのデータにはおそらく欠損がある

どんなときに注意が必要なのか

欠損データに対処するための戦略¹

Indeed のミッションは、「We help people get jobs (求職者の仕事探しのお手伝い)」です。仕事探しはストレスがたまることも多いでしょう。だからこそ、Indeed ではより簡単なプロセスを常に模索し、サービスを改善し続けています。Indeed のサービスや求人検索エクスペリエンスについて求職者がどう思っているかは、アンケートを使用して知ることができます。

アンケートからわかったことは、仕事を探している人 (あるいは見つけたばかりの人) にとって、アンケートへの回答は、最もやりたくないことだということでした。つまり、Indeed が収集するアンケートのデータの多くは、欠損データであるということになります。ユーザー満足度などのアンケートを正しく分析するには、潜在的な欠損パターンを考慮に入れ、正しい結論を導き出す必要があります。

ここでは、欠損データを特定し、どう対処するかについてお話したいと思います。ミシガン大学でのアンケートの手法に関するトレーニングに触発され、学問として学んだデータセットに関する理論を、Indeed の膨大なデータに応用したいと考えるようになりました。

先日まで携わっていた欠損データを扱うプロジェクトでは、分析から多くのことを学びました。一通りのプロセスをご紹介しますので、Indeed がどのようにアンケートのデータを収集しているか、おわかりいただけると思います。非回答率と非回答バイアスの違いや、なぜ非回答バイアスにおいて「ランダム性」が良いとされるのか、具体例を用いてご説明します。

注意: この記事で使用する例は Indeed に関するものですが、扱うデータはすべて架空のものであり、筆者である私が作り上げました。

Indeed での採用数の測定

case study 1

Indeed からのジョブアラート (新着求人情報のメール配信) の配信を停止したことがある方は、次のアンケートをご覧になったかもしれません。

job alert cancellation survey

このアンケートの目的は、求職者がジョブアラートをキャンセルまたは配信停止した理由が、仕事が見つかったからなのかを確かめることです。この情報があれば、Indeed のサービスの改善に役立ちますし、求職者の成功を祝うことができます。

このアンケートには、一部の求職者しか回答してくれない、という問題点があります。ユーザーの視点で考えれば当然のことでしょう。おそらく、メールの配信は停止しても、アンケートへの回答には時間を使いたくないのです。これは私たちにとって、特に「仕事が見つかったから配信を停止したのか」というキーとなる質問に関しては、かなりの数の欠損データが生じることを意味しています。

非回答率と非回答バイアス

case study 2

欠損データについて議論する際、回答率と非回答バイアスを混同しがちです。回答率に関してこういう誤解があると、データの質の問題に発展してしまいます。回答率が高い方が、回答の質が高いと思い込んでしまうことがあるのです。しかし、必ずしもそうではありません。

ジョブアラートのキャンセルに関するアンケートの結果を見ると、13.8%が回答していないことがわかります。

survey response 1

非回答率が13.8%であるということは、アンケートの回答の質について何かを示唆していると言えるでしょうか?

答えはノーです。この時点では、直観的には受け入れがたい回答かもしれませんが、しばしお付き合いください。Indeed がジョブアラートキャンセルのアンケートを改訂し、「答えたくない」という選択肢を加えたとしましょう。

改訂前 改訂後
job alert cancellation survey job alert cancellation - revised

数週間にわたってデータを収集したところ、改訂後のアンケートに答えなかった求職者はわずか5.8%でした。

改訂前 改訂後
survey response survey response alternate

これは、有益なデータが増えたと言えるでしょうか? 非回答率が8%減ったことを喜ぶ前に、回答の分布を詳しく見てみましょう。「答えたくない」を選んだ求職者が57%もいます。

通常、「答えたくない」という回答は欠損データとして扱います。求職者が「答えたくない」を選んだ理由が、採用の最終段階に入っているからなのか、別の理由 (たとえば、他の仕事に応募していることを現在の雇用主に知られる可能性がある、など) なのかはわかりませんが、この場合、回答バイアスが生じている可能性があります。

回答バイアスとは、社会的欲求や圧力により、「答えたくない」など、特定の回答を選択してしまうバイアスです。非回答バイアスは、参加バイアスとも呼ばれ、社会的欲求や圧力により、アンケートへの回答を拒むことを意味します。

上記の例には回答バイアスが見られます。質問がセンシティブな性質を持っているために回答者が「答えたくない」を選んだ可能性があるからです。回答者がアンケートに全く答えなかった理由がアンケートの性質であった場合、非回答バイアスが生じるでしょう。

これは、アンケートに回答した人の割合など、非回答率だけがデータの質を表すものではないことを示しています。

たとえば、過去のアンケートの回答率が80~90%だったのに、直近では61%であった場合、この数字は、非回答率に関する問題が生じている可能性を調べる論拠としては十分でしょう。しかし、過去の回答率が3~5%で、直近では4%であれば、そのアンケートに非回答率の問題はない可能性が高くなります。その代わり、アンケートの提供方法 (固定電話と携帯電話のどちらでデータを集めるか) や参加者の特定方法 (連絡先が古い、あるいは不正確である) についての戦略が、全体的な回答率を下げているかもしれません。

回答率が3%であっても61%であっても、回答率は低回答バイアスと同義ではないのです。改訂後のアンケートの結果、回答率が高い時でも、半数以上の回答者は「答えたくない」を選んだことがわかりました。データ分析には役に立たない回答です。

アンケートに回答した人数に注意を払うだけでなく、質問別の回答数の分布も調べる必要があります。データの特異性や潜在的なバイアスに気付くには、シンプルな度数の統計が非常に役立ちます。

ランダムな欠損とランダムでない欠損

case study 3

非回答バイアスは、簡単に言えば、欠損データがランダムか、ランダムでないかの問題です。どちらの可能性を採るかによって、分析結果が異なります。

最悪のシナリオ: MNAR

欠損データに関する最悪のシナリオは、ランダムでない欠損 (MNAR)[2] [3] [4]  です。MNAR の場合、欠損データは一つ以上の変数と相関関係があり、欠損は、おそらく質問の性質がセンシティブであることに起因しています。これは、アンケートの作成方法に問題が潜んでいることを示しています。

たとえば、ジョブアラートキャンセルのアンケートでカイ二乗検定を行い、アンケートの回答 (回答なし vs あり) と現在の雇用状況 (就業中 vs 失業中) の関係を検証したとしましょう。次のような結果が得られるのではないでしょうか。

結果 予想
mnar observed mnar expected

この結果は、ジョブアラートキャンセルのアンケートへの回答と求職者の現在の雇用状況の間に、統計的に大きな関連性があることを示しています。これにより、検定統計量が 𝚾²(1) = 9.70、有意確率が p = 0.0018だとわかりました。つまり、ジョブアラートキャンセルのアンケートの回答者のうち、失業中の人の割合は、ランダムに予想したよりもはるかに多かったのです。

これは「ランダムでない欠損」の例です。回答の選択に、アンケートの質問そのものが影響した可能性がああるからです。失業している人にとっての職探しは非常に深刻な問題なので、失業中の求職者は、ジョブアラートキャンセルのアンケートに回答する傾向にあるのかもしれません。

最良のシナリオ: MAR

欠損データに関して最も良いシナリオは、ランダムに欠損していること (MAR)[5] [6] です。MAR の場合は、欠損データは少なくとも一つの変数と相関関係にあり、欠損の原因はアンケートの質問そのものではありません。

私が読者を混乱させるために、わざと専門用語を使っていると思われるかもしれません。実際その通りで… という冗談はさておき、MNAR と MAR は、調査方法論学者が欠損データについて議論する際によく使う用語です。MNAR と MAR は、第一種の過誤と第二種の過誤、媒介と調整といった専門用語と同じ世界に属しています。

たとえば、ジョブアラートキャンセルのアンケートでカイ二乗検定を行い、アンケートの回答 (回答なし vs あり) と求職者が使用するデバイス (デスクトップ vs モバイル) の関係を検証したとしましょう。これにより、検定統計量が X²(1) = 75.57、有意確率が p < .0001 だとわかりました。次のような結果が得られるのではないでしょうか。

結果 予想
mar observed mar expected

この結果は、ジョブアラートキャンセルのアンケートに回答する求職者と求職者のデバイスの間に、統計的に大きな関連性があることを示しています。デスクトップコンピューターを使用している求職者がジョブアラートキャンセルのアンケートに回答した割合は、予想よりもかなり少ないものでした。

しかし、これまでの経験から考えると、デスクトップよりもモバイルデバイスで求人を検索する求職者の方が多いのかもしれません。この場合、欠損は、アンケートの質問そのものではなく、デバイスの好みに起因している可能性があります。

欠損データに関するその他のシナリオ

このシナリオには、完全にランダムにデータが欠損しているケースや、意図的にデータを欠損させているケースなどがあります。

完全にランダムな欠損 (MCAR) [7] [8] は、欠損が他のどの変数とも相関関係を持たないケースのことを言います。通常、Web 分析で得られるような大規模で複雑なデータセットで、このような欠損を検証するのは不可能です。大規模なデータセット、特に急速に拡大するデータセットの場合は、不確かではあるが顕著な相関関係を見つけられる可能性は、ほぼ100%です。

意図的な欠損とは、欠損データを意図的に生じさせているケースのことを指します。たとえば、過去30日間に Indeed で求人に応募した求職者にのみ、ジョブアラートキャンセルのアンケートを表示するように変更したとしましょう。このシナリオでは、過去30日間に求人に応募していない求職者には、アンケートは表示されません。したがって、応募数に基づいて意図的にデータを欠損させることになります。

欠損データに対処する際の課題

欠損データの大きな課題は、ランダムに欠損しているのか否かの判断で、ランダムであれば MNAR と MAR のどちらかであるかを判断することです。欠損データの分布において大きな差異を確認するのは比較的簡単ですが、有意確率と信頼区間だけでは、なぜデータが欠損するのかはわかりません。

データが MNAR なのか MAR かを判断するのは大変な作業であり、主に推測に頼るしかないのです。前述の MAR の例では、ユーザーはデスクトップ版よりモバイル版の Indeed を使う傾向にあることが、欠損の原因だと推定しました。しかし、このパターンが存在することがわかったのは、デスクトップよりもモバイルを好むユーザーにおいて類似のパターンが見られることに気づいた人たちと話をする機会があったからです。これを知らなければ、私たちは簡単にパターンの解釈を誤ったかもしれません。

幸い、データが MNAR なのか MAR なのかの診断に使用できる戦略があります。

まず、自分自身にこう問いかけてみましょう。

「その質問は、センシティブな、あるいは社会的に望ましくない行動を回答者に求めることになりますか?」

イエスの場合、センシティブな情報の開示を求めることは、MAR でなく MNAR のデータを導き出す可能性が高いことに注意してください。回答者の秘密が守られることを保証し、他の戦略も使用して回答者から信頼を得ることで、アンケートの作成方法による影響を軽減できるかもしれません。

センシティブな情報の開示を求める質問ではなくても、欠損データが MNAR (悪い方) になる心配がある場合は、他の戦略を試してみるのが良いでしょう。回答者から長期的なデータを得られる場合は、非回答パターンが過去の別の時点における回答と一致しているか確認してみてください。一致していれば、少なくとも、珍しい結果ではないことがわかります。

もちろん、非回答パターンが一致するからといって、そのデータが MNAR なのか MAR かを明確に言い当てられるわけではありません。たとえば、社会的に望ましくない行動を報告するよう求めた場合は、同じ MNAR のパターンが長期的に表れる可能性が高くなります。

長期的なデータが入手できない場合の2つ目のソリューションとしては、チーム内や社内の人に聞いてみたり、関連する研究についての論文を読んで、他に類似する非回答パターンの観測例がないか確認してみることです。Slack などのソーシャルメディアで、同僚たちにクラウドソースするのも良いでしょう。今回の非回答パターンが典型的なものなのか、そうでないのかがわかるかもしれません。

こうした比較的シンプルな yes/no ロジックは完璧とは言えませんが、このような戦略は「欠損データは重要ではない」という現実逃避的なアプローチよりは良いはずです。

欠損データはすべての終わりとは限らない

欠損データは、必ずしもすべてが回答バイアスに結びつくわけではありません。意図的な欠損、完全にランダムな欠損 (MCAR)、ランダムではない欠損 (MNAR)、あるいはランダムな欠損 (MAR) の場合もあるでしょう。ジョブアラートキャンセルのアンケートでは、アンケートの作成方法によって、欠損のシナリオが異なる可能性があることがわかりました。

あなたはデータサイエンティストですか? あるいは批判的な考え方をするデータ愛好家でしょうか? いずれにしても、手元にある欠損データについて、深く掘り下げることを忘れないでください。

おすすめの書籍

De Leeuw, E. D. (2001年) Reducing missing data in surveys: An overview of methodQuality and Quantity, 35(2), 147–160.欠損データと回答バイアスについての簡潔な記事

Kish, L. (1997年) Survey samplingやや難解だが、サンプリングバイアスについて詳しく学ぶうえで信頼性の高い本

Tourangeau, R.、& Yan, T. (2007年) アンケートでのセンシティブな質問Psychological bulletin (心理学紀要), 133(5), 859

筆者紹介

私自身のバックグラウンドを少しお話しますと、ミシガン大学の博士課程を修了した後、Indeed の Quantitative UX Researcher として少し前に産業界に入りました。

学問の世界から産業界に移った経緯についてお聞きになりたい方、あるいは欠損データについて詳しく知りたい方は、お気軽にメッセージをお寄せください。

Indeed で働きませんか?募集中の職種をご覧ください。


[1] 非回答バイアスというトピックは、きわめて広大な分野だと言えます。書籍や論文などを入手できます。この分野についてより深く理解したい方は、上記のおすすめ書籍をチェックしてみてください。欠損データを扱う際に参照できるリソースです。

FOSS Contributor Fund 始動から6か月

Indeed では、Indeed らしいやり方でオープンソースコミュニティをサポートしたいという思いから、2019年の初めに、Indeed 従業員なら誰でも参加できる FOSS Contributor Fund を設立しました。資金提供先の決定プロセスに従業員も参加できるようにし、オープンソースへの貢献を奨励しています。

foss contributor fund logo

FOSS: Free or Open Source Software

私たちのユニークなアプローチは、オープンソースコミュニティを支えてきた理念と一致し、また、Indeed の企業文化の根幹とも言えます。FOSS Contributor Fund は設立から6か月を迎えました。今回は、この基金の仕組みと、私たちの学びがどのように反映されているかについてお話ししたいと思います。

FOSS Contributor Fund の仕組み

毎月、1件のオープンソースプロジェクトを選出し、$10,000米ドルの資金を提供します。Indeed の従業員であれば誰でもプロジェクトを推薦することができますが、プロジェクトは次の4つの条件をすべて満たしている必要があります。

  • Indeed またはその子会社で活用されること
  • OSI 承認ライセンスを使用すること
  • 資金を受け取るための仕組みがあること
  • 従業員がオーナーになっていないこと

決められた期間内にオープンソースに貢献した従業員は、推薦されたプロジェクトの投票に参加できます。オープンソースのプロジェクトに参加している従業員が、資金提供先の決定にも参加できるのです。

投票期間が終了すると、投票結果を集計し、勝者を発表します。その後、選出されたプロジェクトの担当者に連絡し、資金を受け取る準備が整っていることを確認します。資金の使用方法は、資金を受け取ったプロジェクト側が決定します。

これまでの成果

基金の設立以来、Engineering、QA、Site Reliability Engineering、Technical Content Management からの参加がありました。従業員のオープンソースへの貢献がより積極的になり、この6ヶ月間で3,000件以上のコントリビューションが確認できました。これまでに、Django、Git、Homebrew、pandas、pytest の5つのオープンソースプロジェクトに資金を提供しました。また、今後の資金提供先として ESLint が選出されています。

 

git logoGit プロジェクトは、寄付金のみで運営されています。主要コントリビューターは数名ですが、プロジェクトベースで多数の開発者が貢献してくれています。いただいた資金で、年に1回開催しているコントリビューターサミットなどのカンファレンスに参加するための旅費も賄えるので、開発者たちは活動を続けることができています。また、Outreachy プログラムにも資金を活用しており、コントリビューターの多様性が広がっています。
— ジェフ・キング (Git)


homebrew logo資金は主に、Homebrew のメンテナーの会合に使用する予定です 。 また、何度も延期してきた CI のセットアップの費用に使用させていただくことも考えています。
— マイク・マクエイド (Homebrew)

 

重要なポイント

基金設立以降、Indeed の全従業員が FOSS 基金への参加を希望していることがわかりました。幅広く参加を促すための重要なポイントをいくつかご紹介しましょう。

すべての従業員に資金提供先の選出プロセスを開放する。Git Hub の ID を持っている従業員やオープンソースの業務に携わっている従業員だけでなく、すべての従業員に参加を促します。従業員は、Indeed が支援するのに値する、会社にとって重要なプロジェクトだと確信すれば、プロジェクトを推薦してくれます。

プロジェクトの推薦条件を意識する。寄付をスムーズに行えるように準備を整えておきます。問題が発生して、参加の意欲が低下してしまうようなことは防がなくてはなりません。また、推薦されたプロジェクトには、資金を受け取るための仕組みが必要です。推薦されたプロジェクトの中には、少数ですがサポート契約やサブスクリプションが必要なプロジェクトがありました。基金は決められた予算で運営しなければならないため、繰り返し発生するような支払いには資金を提供できません。一方、推薦されたことで認識されたプロジェクトもありました。

一回の資金提供で最大の恩恵を享受できるプロジェクトはどれか。FOSS 基金では、従業員がどのプロジェクトに思い入れがあるかはわかりますが、経済的な支援を最も必要としているプロジェクトを見つけ出すことはできません。これまでに私たちが支援したプロジェクトは、ある程度の知名度があるもので、すでにコントリビューターと支援者のコミュニティが出来上がっているものが大半でした。これらのプロジェクトも支援を必要としていますが、知名度が低いプロジェクトにも支援が必要でしょう。これからも、FOSS 基金からの寄付を最大限に活用してくれるであろうプロジェクトの発掘に尽力していきます。

推薦されたプロジェクトを、オープンソースにより深く関わるための出発点とする。オープンソースに初めて貢献しようとしたとき、どこから着手したらいいのかわからない、というのが最大の障壁となることが多いでしょう。期間中に推薦されたプロジェクトに絞り込むことで、依存関係がわかるプロジェクトを選ぶことできるので、支援すべきプロジェクトに新たなコントリビューターを送り込むことができます。

 

pandas logoFOSS Contributor Fund からの寄付に深く感謝しています。この資金は有効活用させていただきます。ドキュメントを更新し、パフォーマンスの指標やベンチマークツールを改善し、年間を通して主要な開発者に資金を提供していきます。より本格的に pandas に取り組むことができます。この寄付のおかげで、pandas の改善を続けるために多くのリソースを使えるようになります。どの言語においても pandas は最高のデータサイエンスライブラリツールキットになるでしょう。
— ジェフ・リバック (pandas)


pytest logopytest はこの寄付を、メンテナンスや開発者の会合のための費用に使用させていただきます。また、来年度予定しているディベロップメントスプリントにも使用させていただくかもしれません。
— ブルーノ・オリベイラ


ESLint logoESLint はボランティアで運営されているプロジェクトですが、Indeed からの寄付がなければ、改善を進めることはできなかったでしょう。いただいた資金は、短期的にはドキュメントを様々な言語に翻訳する費用に充てる予定です。長期的には、開発とメンテナンスを続けられるよう、ESLint に定期的に貢献してくれている開発者の支援に活用する予定です。
— ニコラス・C. ザカス (ESLint TSC メンバー)

 

私たちの取り組み

Indeed の Open Source Program Office (オープンソースプログラムオフィス) では、必要なプロジェクトが今後も継続されるよう取り組んでいます。経済的支援を行うとともに、社内コミュニティにも、プロジェクトへの寄付を推奨しています。FOSS Contributor Fund は、この2つを結びつけるのに最適な方法です。社内 のオープンソースへのコントリビューターがプロジェクトの推薦、選出プロセスに参加できるようにしたことで、コントリビューションの幅が広がり、様々なプロジェクトが認知されるようになり、新たにコントリビューターを送り込むプロジェクトを把握できるようになりました。

Indeed のオープンソースプログラムについて詳しくはこちらをご覧ください。.  

Original English quotes are available here.

Open Source at Indeed: Heading to OSCON

The Indeed Open Source Program Office is excited to be at OSCON, the O’Reilly Open Source Software Conference in Portland July 15-18, 2019.

oscon logo

If you’re attending, visit Booth 409 and check out both of Indeed’s speaking sessions. Look for our espresso bar and an opportunity to donate to the Apache Software Foundation, the Open Source Initiative, and the Software Freedom Conservancy. For every cup of coffee we hand out, we’ll donate $5 to ASF, OSI, or SFC—your choice.


Ignite OSCON

Ignite logo

Tuesday, July 16 | 5pm | Location: Portland Ballroom

Duane O’Brien, Indeed’s head of open source, is happy to emcee Ignite OSCON, a fun evening that follows the day’s tutorials. “Enlighten us, but make it quick!” is the Ignite motto. Each speaker will try to fulfill that mandate in their talk—backed by 20 slides that automatically advance every 15 seconds.


Sustaining FOSS Projects by Democratizing the Sponsorship Process

foss contributor fund logo

Wednesday, July 17 | 2:35pm | Location: E141/142
Speaker: Duane O’Brien, Indeed’s Head of Open Source

Indeed is democratizing the decision-making process and inviting all of our employees to participate in the FOSS Contributor Fund. Our unique approach aligns with the ideals that have helped sustain the open source community. These ideals also drive our own company culture. Duane’s talk will examine how we got executive buy-in for the fund, how the fund was set up, how we encouraged participation, and what the impact has been so far.

duane o'brien

Speaker Profile

Duane is passionate about enabling smart and meaningful contributions to the open source ecosystem. He navigates the path between engineering and management, drawing on his background as a developer and program manager. Duane also relies on his experience supporting agile transformations.


Cross-posted on Medium.