[Science and data science | PNAS](https://www.pnas.org/content/114/33/8689)
## Abstract
> 膨大な量のデータを有益な予測や洞察に変えることができると期待されているデータサイエンスは、多くの注目を集めています。この記事では、なぜ科学者がデータサイエンスに関心を持つべきなのかを問いかけます。その答えとして、データサイエンスを「統計」「計算」「人間」の3つの視点から説明します。3つの視点はそれぞれデータサイエンスの重要な要素ですが、3つの要素を効果的に組み合わせることがデータサイエンスの本質であると主張します。
「データサイエンス」という言葉が注目されています。その注目度は、ビジネス(1)、政府(2)、そして統計学(3、4)やコンピュータサイエンス(5、6)などの学術分野で高いものとなっています。ここでは、科学研究の観点から、データサイエンスについて説明します。データサイエンスとは何か?なぜ科学者はデータサイエンスに関心を持つのか?
私たちは、データサイエンスは統計学とコンピュータサイエンスの融合であると考えています。データサイエンスは、統計学とコンピュータサイエンスの手法や考え方の一部を継承しながらも、それらを融合させ、焦点を当て直し、現代の科学的データ分析の状況やニーズに対応できるように発展させようとしています。この視点は新しいものではありません。今から50年以上前、Tukey (7) は「データ分析」を、伝統的な数理統計学よりもはるかに広い範囲で行うものと定義しました。ある意味、今日のデータサイエンスは、現代的な背景を持っていますが、Tukeyのオリジナルの型にはめられています。
現代の研究では、さまざまな分野の科学者が豊富なデータセットに直面しており、科学的目標を達成するためにデータには価値があると確信しています。ここでは、ゲノム、社会、銀河の各スケールにおける3つの例を挙げます。まず、最新のシーケンシング技術により、大規模で高解像度の遺伝子配列が可能になり、遺伝学者は遺伝子データを個人の行動や病気に関する大規模なデータベースと結びつけています。これらのデータは、研究者がヒトゲノムを研究する際に役立つ可能性があり、ヒトゲノムがどのように進化し、観察された形質をどのように支配しているかを理解するのに役立ちます。次に、社会科学者は、デジタル化されたテキストの大規模なアーカイブを研究する機会を得ました。これらのデータは、社会の輪郭をより効果的にナビゲートし、理解するために役立ちます。第三に、現代の望遠鏡はデジタルスカイサーベイを行い、何十億もの天体に関する何百テラバイトもの生の画像データを生成することで、観測天文学を大きく変えました。これらの天体のカタログが入手できれば、天文学者は宇宙の構造を知る上で、これまでにない窓を手に入れることができます。
これらの例は、現代科学の可能性を示すものです。しかし、すべての科学分野とは言わないまでも、多くの科学分野に共通する問題は、科学者が新しいデータを十分に活用できていないことです。遺伝子と形質を大規模に結びつけることは、計算的にも統計的にも、古典的なゲノム解析の限界を超える問題です。大規模な文書のコレクション、特に社会科学者の優先事項を反映した文書をナビゲートするツールを構築することは、古典的な文書解析の方法では解決できない問題です。宇宙の複雑な性質を理解するためにデジタルスカイサーベイを使用するには、以前の時代に手作業で管理されていた研究に使用されていたものとは異なる計算ツールと統計的仮定が必要です。
大まかに言えば、現代の科学者が直面しているタイプの問題を解決するためには、統計学や計算機による既存の方法では対応できないという緊張感が生まれています。膨大なデータセットや複雑なメタデータの扱いなど、計算上の問題もあります。また、統計学的な問題もあります。例えば、多くの関連する変数の豊かな相互作用や、高次元統計にまつわる理論的・実践的な難しさなどがあります。最後に、世界のモデルが必ずしも正しくないこと、経験的データから因果関係を特定することの難しさ、データの探索と理解に関する学問的目標を達成することの難しさなど、より曖昧で哲学的な問題もあります。
私たちは、このような緊張関係が、データサイエンスという新しい名称のきっかけになったと考えています。データサイエンスとは、現代の膨大なデータを活用して、予測、探索、理解、介入を行うことを目的とした学問です。データサイエンスは、近似性と単純化の価値と必要性を強調します。データ分析の結果と、そこから得られる世界に関する理解を、効果的に伝えることを重視しています。最適化アルゴリズムを理解し、精度と速度の間の避けられないトレードオフを透過的に管理することを優先しています。また、データサイエンティストと分野の専門家が協力して、適切な仮定と計算効率の高い手法のバランスを取ることで、分野に特化した分析を促進します。
以下では、統計的、計算的、人間的な観点からこれらの考え方を探り、科学のためのデータサイエンスを発展させるために、どのような見解や態度をとるべきかを明らかにします。統計学的思考は不可欠な要素です。統計学は、データを分析し、推論するための基礎となる技術です。特に科学者が大規模で複雑なデータに直面し、時間やメモリなどの計算資源に制約がある場合には、計算手法も重要になります。最後に、データサイエンスは完全には自動化できないという現実、つまり人間的な側面があります。最新の統計・計算ツールを最新の科学的問題に適用するには、人間の判断力と深い分野の知識が必要です。
## Summary
私たちは、実践、研究、教育に影響を与えるデータサイエンスの全体的な見解を提示しました。これは、統計的、計算的、人間的な境界を越えた研究を統合することの可能性を示唆しています。さらに、現実世界の問題を解決するためには、データサイエンティストは従来のトレーニングを超えた作業を行う必要があることにも焦点を当てています。データサイエンスとは、単に統計学とコンピュータサイエンスを組み合わせたものではありません。統計学とコンピュータサイエンスの技術を、より大きな枠組みの中で、問題ごとに織り込んでいく方法や、分野特有の問題に対処するためのトレーニングが必要なのです。総合的なデータサイエンスを行うためには、データの背景を理解し、プライベートデータやパブリックデータの使用に伴う責任を認識し、データセットが世界について何を語ることができ、何を語ることができないのかを明確に伝えることが必要です。