ページの本文へ

Hitachi

画像 石井一夫特任教授 プロフィールはこちら

第二回目のビッグデータ活用によるゲノム解析、とくに新たな医療の可能性についての話に続き、シリーズ最終回となる今回、石井一夫特任教授は、実際のゲノム研究の現場で解析をどのように進めているのか、そしてそこに必要なスキルとは何か、について語ってくださいました。さらにお話は、ゲノム先進国といわれる諸外国の人材育成の状況と日本との比較に及びます。ビッグデータ時代、イノベーションを生み出す人材づくりへの大きな示唆となる最終回です。

ゲノム科学におけるビッグデータ分析の実際

実際のゲノムデータ分析におけるビッグデータ処理では、私の場合、そのデータ処理の性質や規模に応じて主に以下の4つの分析手法を使い分けています。
まず、大量のデータから一部のデータを抽出して元のデータのパラメータを推定する「モンテカルロ法によるシミュレーション」。あるいは、大規模な研究拠点の共同利用が可能な大容量メモリー、メニーコアサーバによるスーパーコンピュータを活用する「HPCアプローチ」。または、大量データを複数のマシンに分散して処理する「Hadoopによる並列分散処理」。そしてもうひとつ、Hadoopよりも容易に分散処理システムを構築できる「シェルスクリプトによる並列分散処理」です。
例えば10万行ぐらいまでならExcelでも処理できますから、それは手元のサーバーに投げます。100万行になるとシェルスクリプトを使い、ノード数を多く使うプロセスはファイルをばらばらに割ってクラウドに投げますし、さらに大量のメモリーが必要で、すぐに結果が欲しい時にはHPCを使う、といった具合にデータのボリュームと解析の手法によって最適なやり方を選ぶわけです。

しかし扱うデータ量は日々増え続け、数億行のデータも当たり前のように毎日出てきますし、将来的にはさらにここから1桁、2桁と上がっていくはずです。
こういう状況のなか、最近のゲノムデータ解析ではテラバイト級のメモリーを用意したりするケースもあり、今後さらに大きくなっていくデータを考えれば、現在のどんなハイスペックなコンピュータでも性能的にこれで十分とは言えないでしょう。

写真

そしてもちろんビッグデータの解析には、古典的統計学から機械学習、最尤(さいゆう)推定法、ベイズ統計など、幅広い統計学の知識も必要とされるのは言うまでもありません。
ですからゲノム解析の現場では、いま利用できるITプラットフォームの長所と短所を考慮したうえで、さらに統計学の知識に基づいて分析のアルゴリズムやプロセスを調整しながら、ベストな環境を選択していく必要があります。というより最適な方法を選択できないと、発見を得られないのです。そういう意味で、いまの、そしてこれからのゲノム研究者にはITリテラシーと統計学の能力は、必要不可欠な武器となります。
ですが、すでにお話ししたとおり、現在の日本には自分の専門領域以外に、こうした高度なITリテラシーと統計学の知識の両方を活用できる研究者は少ないのが現状です。一方、海外のゲノム先進国に目を向けると少し事情が変わってきます。

HPC:High Performance Computing

人材育成でも先行するゲノム先進国と日本の課題

ゲノム先進国である米国、中国、英国は、人材の育成と確保に積極的に取り組んでいます。
例えば、ゲノム研究で世界をリードする米国では、情報系学科の充実度は言うまでもなく、統計学科のある大学も多数存在し、統計学とITリテラシーを通して学べる体制が整備されています。これによりスタンフォード大やハーバード大などは、数多くの著名なエンジニアを輩出していますが、こうして育成された研究者は、アメリカ国立衛生研究所などの潤沢な資金提供のもと、きわめて整った環境で研究活動を進めることができます。

写真

また中国では、活躍する研究者の多くが米国の大学や大学院で学んできた人材であり、教育は米国に依存しているものの、国家自然科学基金委員会などを通じて、国を挙げてゲノム研究者をサポートしています。
また英国の場合は、国立のMRC分子生物学研究所などが世界中から優秀な研究者を集めており、それを財政面からバックアップしているのがウェルカム財団をはじめとする公的な資金供給団体です。
米国や英国、中国などゲノム先進国において、学生、研究者を取り巻く恵まれた環境を背後から支えているのは公的なバックアップであり、長いスパンで取り組まなければならない基礎的研究の重要性を、国として理解していると言えるでしょう。

一方、日本の状況を見てみると、統計学科を持つ大学は存在せず、また統計学と情報系の学問との間に壁が存在し、残念ながらビッグデータ時代の人材育成を行う体制づくりはこれから、という状況です。その中で日本の強みは、数学やITリテラシーに関しては、高校までにかなり高いレベルのものを学んでいるということ。そして近年、統計学やデータサイエンスの重要性が認識されつつあるなかで、統計学に関するセミナーやウェビナーがさかんに開催され、高校や大学においてもカリキュラムが充実しつつあり、日本においても人材面での底上げは一歩ずつですが、進んでいると思っています。

私が「ビッグデータ活用実務フォーラム」を設立したり、東京農工大学で解析に必要な技術を習得させる教育プログラムを実施したりしているのも、こうした動きを少しでもサポートしたいと思ったからにほかなりません。
しかし、統計学やプログラミング言語について学ぶべき領域は広範ですし、どんどん新しい知見が出てきているので、最新の知識や技術を順次アップデートしていく必要があり、いまの教育体制でフォローできているかというと、まったく不十分というのが現状です。やはり、日本においても公的なバックアップが待たれるところです。

専門×統計×ITの三拍子で、世界を変えるイノベーションを

ただし、ゲノム研究というのは国家間競争や国際比較という視点から測るものではなく、それぞれの国が自国の状況に応じて、できることから取り組んでいくべき地球的課題の領域だと私は考えています。
例えば、2012年に京都大学の山中教授がiPS細胞の研究でノーベル生理学・医学賞を受賞しましたが、これは基礎研究に関してはゲノム先進国の後塵を拝している日本が、ゲノム研究を土台にした応用分野における個人個人の研究レベルでは世界をリードしているということ。日本は、これからもこの分野で存在意義を発揮していけばいいと思います。

思えば、ビッグデータ活用で世界を変革するイノベーションを生み出したのは、米国という国家ではなく、さらにいえばGoogleという会社でもなく、究極的にはセルゲイ・ブリンとラリー・ペイジという個人でした。
そしてゲノム研究の領域でも、今後、世界を根底から変えるイノベーションを生み出すのはきっと、国家や組織という大きな枠組みではなく、1つの研究室、あるいは、研究者という個人なのかもしれません。

新しい発見のためには、ほかの人が思いつかないことをどんどんやってみること。その実行に必要なのは、やはりビッグデータ時代においてはゲノムの専門知識に加えて、統計学とITリテラシーの能力。すなわち、これらの知識を組み合わせたアナリティクスの斬新なアイデアが必須です。
ビッグデータ活用はゲノム研究などの医療分野のほかにも、環境問題や食糧問題などの解決に大いに寄与するでしょう。そしてもちろん、皆さんのビジネス領域にも大きなイノベーションをもたらします。
そういう意味ではビジネスパーソンの皆さんにとっても、各自の専門性に加え、統計学、ITリテラシーを加えた3つの能力を各個人が育み高めていくことは、とても大切なことだと思います。3つの力が揃ってはじめて、価値ある発見や飛躍的な発展をもたらす斬新なアイデアを引き出すことができるのですから。
そんな三拍子揃った人材を一人でも多く生み出していくことこそが、いま、世界が必要とする価値あるイノベーションを生み出すための大きな第一歩になるのではないでしょうか。

写真

プロフィール

石井 一夫(いしい かずお)

東京農工大学農学府農学部農学系ゲノム科学人材育成プログラム特任教授。ゲノム研究者としての実務家の視点から、ビッグデータ活用のあるべき姿を追求するために「ビッグデータ活用実務フォーラム」を2013年6月に設立。さまざまな現場でのビッグデータ活用に関する情報の交換・共有・発信の場を提供することを通じて、若手データサイエンティストの人材育成に取り組んでいる。

オススメ記事