私たちの生活にクラウドサービスやスマートフォンが浸透してデータが集められるようになり、ビッグデータを活用するためデータサイエンティストの需要が増えています。
ビッグデータは身近な例でいうとGPSの位置情報、ネットサイトの閲覧履歴、クレジットカードの使用履歴などがあげられますが、様々な形式や種類があることから通常のデータベースでは保管や解析が困難なためデータサイエンティストという職業が生まれ、求められています。
本記事では比較的新しい職業であるデータサイエンティストについて、必要なスキルや学習方法を中心に解説します。
データサイエンティストの仕事内容

データサイエンスの目的とは
まず仕事内容を簡単に説明します。
データサイエンティストの仕事となるデータサイエンスとは、ビッグデータを元に統計学、情報工学など様々な領域の手法を用い有意義なデータを引き出すこと言えます。有意義なデータとして分かりやすい例では将棋の AI や自動運転技術、天気予報などがあります。データを解析してAIに活用したり予測を行います。
実際には企業へのBIツール導入など、ビッグデータ解析やAI導入のためのデータ基盤導入での仕事が多くなるでしょう。イメージと実際の仕事にはややギャップがあるかもしれません。
データサイエンティストに必要なスキル・経験

プログラミングスキル
顧客管理等の通常のデータ処理作業であれば Excel や Access でも事足りますが、ビッグデータとなればそうもいきません。データの収集や形式の統一化などを行うためにプログラムでの文字列処理等が必要となります。収集した生(Raw)データを格納する場所を Data Lake と呼んだりします。
Data Lake のデータを解析するためにはデータベースの知識や高度な数学処理が必要となります。相応のプログラミングスキルを身につけなければなりません。
プログラミング言語としては、現時点では Python、R言語 が利用されています。
なお、プログラミング言語に求められる要件として処理が高速であること、データサイエンティスト向けのライブラリの充実が求められます。
データベースに関するスキル
データの分析・解析を行うためには DBMS(データベース管理システム)の知識と操作するために SQL のスキルが必要となります。
統計学など数学の知識
データサイエンスと数学は不可分です。ざっくりいうと統計学や確率統計、線形代数など関連する知識が必要になります。
詳細は2021年9月21日にスタートした新資格「データサイエンス数学ストラテジスト(MDS-S)」の試験内容欄を参照すると分かりやすいでしょう。
また、アメリカのデータサイエンティストらが執筆した『データ分析のための統計学入門 原著第4版』の日本語版PDFファイルが無料公開されたことが話題になりましたので参考までにご紹介します。
『データ分析のための統計学入門 原著第4版』の日本語版PDFファイル
ビジネススキル、コミュニケーションスキル
意外かもしれませんがビジネススキルやコミュニケーションスキルも重要です。
データは分析するだけでは意味がありません。ビジネスの現場で活用されてこそ初めて意味を成します。
分析した結果や対策をデータサイエンティストだけが理解できる専門的な内容として伝えるのではなく、分かりやすく視覚化してプレゼンテーションするなどのスキルが必要となります。
データサイエンティストに向いている人は?

いわゆる理系脳の人
サイエンティストのイメージ通り、いわゆる理系に適正がある人がデータサイエンティストに向いてると言えるでしょう。
地道にデータを収集・解析し、解析結果を客観的かつ論理的に分析する必要があります。
地道な実験を繰り返す科学研究者と似ているかもしれません。
ただし前述したようにビジネススキルやコミュニケーションスキルも重要であることは忘れないようにしましょう。
データサイエンティストを目指す人が取り組んでおくべきこと

データサイエンティストを目指す場合に取り組んでおくべきことを紹介します。
DataCamp, Kaggle で学習する
データサイエンティストとしてのスキルを学習するために DataCamp や Kaggle などの学習サイトを活用しておくとよいでしょう。
DataCamp はオンラインデータサイエンス学習プラットフォームです。コース修了率が60%を超えていると言われており、カリキュラムの良さやサポートの充実が伺えます。
またレビューサイトの BitDegree で 9.4点(10点満点 2021/11/30時点) と非常に高い評価を得ています。
Kaggle はデータ分析や機械学習の競技大会プラットフォームです。機械学習やデータ分析を実践できる世界最大級のコミュニティと言われています。
メダルや Tier(称号) の付与などゲーム要素があり、モチベーション維持がしやすいことが特徴です。
これから学習する方であれば DataCamp でデータサイエンティストコースを修了して基礎を学習し Kaggle で実践的なスキルを身につけるという流れがよいでしょう。
英語の論文に慣れておく
データサイエンスは研究が行われている分野で、研究結果は基本的に英語の論文で発表されます。
学習を進めたり業務に必要な知識を得るために英語の論文を当たる機会も出てくるかと思います。
英語が読めることは大前提ですが、論文の構造を理解したり論文(PDFファイル)の扱いに慣れておくと良いでしょう。論文の扱いについて、具体的には Google Scholar の活用や論文管理ソフトの導入があります。
上手に論文が管理できると知りたい知識や情報を見つけやすくなり効率が向上します。
フリーランスデータサイエンティストの需要や将来を把握しておく
フリーランスのデータサイエンティストの需要は旺盛と言われています。
一方で将来はAI に取って代わられる職業と論じられることもあります。
筆者の意見としては、単に解析だけならば確かにAIが代替できる可能性は高いと思いますが解析結果に価値を見出すのはAIには難しいと考えています。
先に挙げたビジネススキルを磨いておくことで将来も有用なデータサイエンティストとして仕事ができるはずです。
おわりに
データサイエンティストの簡単な仕事内容、求められるスキルや取り組んでおくべきことについて解説しました。
正直、誰にでも目指してみましょうとは言えない敷居の高い職業ですが、データサイエンティストが気になってる方の参考になれば幸いです。
最後に匿名記事ではありますが、2019年にバズっていた記事を紹介します。血液内科専門医から Google への転職を実現したという異色のキャリアで、プログラミング未経験からどのような経緯で転職までこぎつけたのか具体的に記録されているため参考になるかもしれません。
【転職エントリ】Googleに入社します|Lillian|note
単に「頭がいい」ではなく自分のやりたいことを明確にして、有料の学習サイトを活用して最後までやり遂げていることが成果につながったように思えますね。
学習サイトとして DataCamp や Kaggle を紹介しましたが、英語で敷居が高いと思われる方は日本語のコースもありますのでぜひ確認してみてください。
コメント