近年、診断や臨床経過の予測、治療の最適化など個別化医療の鍵として、重要度を増しているのが生体内指標「バイオマーカー」の探索です。これに伴い、膨大な医療データから有用な因子を短時間で高精度に検出する手段としてAI技術の活用が進んでいます。
本座談会では、医療・医薬分野における高度な解析を支援する日立の独自説明可能AI「B3」*を研究開発・進化させ続けている日立製作所のメンバーが、その「B3」を活用してCOVID-19の重症化予測モデルを構築した井元 清哉先生と南宮 湖先生をお招きし、臨床とAI技術の協働によって得られた知見や、医療の研究現場でのAI技術の有用性、さらには今後の展望について語り合いました。
井元 清哉(いもと せいや)
東京大学 医科学研究所 ヒトゲノム解析センター長・教授
東京大学医科学研究所ヒトゲノム解析センター長を務める、数理統計学・バイオインフォマティクスの専門家。東京大学医科研でゲノム情報解析の研究に従事し、教授・センター長として医療データサイエンスをけん引。厚生労働省医療統計参与や東京iCDC専門家ボード構成員として、政策にも深く関与。
南宮 湖(なむぐん ほう)
慶應義塾大学医学部 感染症学教室・教授
慶應義塾大学医学部感染症学教室・慶應義塾大学病院臨床感染症センター/感染制御部の責任者を務める感染症専門医。COVID-19や肺非結核性抗酸菌症(肺NTM症)の研究に注力し、「コロナ制圧タスクフォース」の事務局を務め、国際共同研究グループ「NTM Host Research Consortium」を主宰。日本国内外の研究者と連携し、感染症の重症化メカニズム解明と治療法開発に取り組んでいる。
中本 与一(なかもと よいち)
日立製作所 医薬システム本部 主任技師
医薬システム本部・創薬AIユニットの取りまとめ。主に創薬領域における新事業創出プロジェクトの推進を実施。日立の説明可能なAI「B3」を含むHitachi Digital Solution for Pharmaの立ち上げリーダー。
根本 翔太(ねもと しょうた)
日立製作所 医薬システム本部 技師
創薬AIユニット・医療データ解析チームの取りまとめ。データサイエンティスト兼プロジェクト取りまとめ者として多数の解析案件を推進。生成AIを活用した創薬業務における業務効率化プロジェクトや製薬企業との協創プロジェクトも推進中。
池上 諒(いけがみ りょう)
日立製作所 医薬システム本部 企画員
創薬AIユ創薬AIユニット・医療データ解析チームメンバー。医療現場での臨床経験のあるデータサイエンティストとして多数の解析案件や製薬企業のデータサイエンス支援に従事。RWD利活用のビジネス検討にも参画。
――健康・医療分野におけるデータ解析の第一人者である井元先生と、感染症学を専門とし呼吸器内科の医師である南宮先生は、2020年5月に発足した「コロナ制圧タスクフォース」のメンバーとして尽力されてきました。プロジェクトにおいて重症化因子の解明が特に重要な目標に掲げられたのは、どのような背景や課題があったからなのでしょうか?
井元:新型コロナウイルス感染症というのは、ご存じのように非常に症状の幅が広い疾患でした。ごく軽症で済む方もいれば、中等症、さらに重症化して体外式膜型人工肺(ECMO)を必要とするケースまで、本当にバリエーションが多かったのです。
その中で、どの患者さんが重症化するのかを見極めることは、非常に重要な課題でした。ひとつは、臨床現場で患者さんにどのような医療を提供すべきかを判断するうえで、あらかじめ重症化のリスクが分かれば、より的確な準備と対応が可能になります。
もうひとつは、新しい治療法を開発する立場においても、重症化に関わる因子を把握することは不可欠でした。ですから、私たちは重症化因子の解明を喫緊の目標に据えたのです。
当初、新型コロナウイルス感染症において、どのような因子が重症化に関係しているかという知見はほとんどありませんでした。そこでまずは、できる限り広範なデータを収集し、重症化に関連する因子を検討できる基盤を整えることから始めました。
――データ収集では、南宮先生が全国の医師に幅広く呼びかけられたと伺っています。
南宮:私は当時、アメリカの米国国立衛生研究所(NIH)に留学しており、呼吸器感染症、特に重症化に関与する因子の研究に取り組んでいました。多くの病院の先生方と一緒に検体を集めて解析するという研究スタイルをとっていたので、世界的に新型コロナウイルスの感染が急拡大していく中で、日本で「コロナ制圧タスクフォース」が立ち上がることを知り、自分も何かしら貢献できるのではと考え、「ぜひ参画させてほしい」と手を挙げました。
具体的には、感染症や呼吸器疾患を専門とする医師の立場で、新型コロナウイルス感染症の患者さんに検体採取の協力をお願いできる日本全国の先生方に、直接ご連絡したり、知人を介したりと、さまざまなルートで依頼を行いました。
井元:はじめはどのくらいの症例数が集まるのか分かりませんでしたが、すぐに医師の皆さんが、この感染症の仕組み、その重症化に至る原理、そしてどういう治療を行えばよいかを知るために、しっかりデータを集めて対処しなければならないという使命感を強く持っていることを感じました。どんどんデータが集まり始めて、2020年の夏頃には患者登録が1,000件に上り、最終的には2022年10月までに全国100以上の参加施設で3,400名以上の患者さんの臨床情報と検体の収集が実現しました。
――集められた貴重なデータの解析に日立のAI「B3」を活用しようと考えられたのは、何が決め手になったのでしょうか??
井元:やはり、この重症化を予測できるAIを、できるだけ早く臨床現場で使ってほしいと考えていたからです。たとえば、一見すると元気に見える患者さんでも、実は重症化リスクが高いというケースを早期に見極めることができれば適切な対処ができます。そのためには、診療や治療方針の判断材料になる説明が必要でした。
つまり、結果の予測精度がどんなに高くても、「AIはなぜこの人をリスクが高いと判定したのか」という根拠が“ブラックボックス”になっていてはだめなのです。
日立の「B3」は、“根拠が説明可能”という点で、ドクターが臨床で使いやすく、また、ロジックが可視化されるので、病気のメカニズムを解明する研究のプロセスで非常に有効だと感じました。
――「B3」の研究開発を担う立場から、実際に医療に携わる先生方の使いやすさをどのように実現したのでしょうか?
中本:井元先生がおっしゃるとおり、「B3」は医療・医薬分野に向けたAIとして、根拠が説明可能であることは非常に大事な要素だと私たちも考えていました。
その説明手法も、医師や医学研究者の先生方がこれまで親しんできた「ロジスティック回帰」をベースにしています。本来は複雑な非線形の解析結果を、シンプルな線形モデルで表現すると同時に、「BMI=体重÷身長?」のように、変数と演算子を組み合わせた指標で提示します。
これにより、どの因子がどの程度、アウトカムに影響を与えているかを把握できるため、それを基に先生方の間で議論や検証がしやすく、現場での意思決定に活用しやすくなります。
井元:複数の変数を組み合わせて1つの指標をつくる。これを人が考えて出そうとしても答えには限りがあります。しかし「B3」なら、どんな変数の組み合わせがより良い予測につながるのかを、データに基づいて網羅的に短時間で調べることが可能です。
――具体的にどのように解析結果を導き出していったのですか?
根本:COVID-19の重症化予測モデルの解析では、先生方にご提供いただいたデータセットを基に、日立側で解析を進めるという協働体制をとりました。あらかじめ疾患に関係しそうな項目を多く含むデータをかなりの症例数でいただいていたので、どのような組み合わせや処理を行えば精度が上がるかを見極めるべく、複数のアプローチを試しながら、PDCAサイクルを回して解析を繰り返しました。
AIに任せきりにすると、高精度でも臨床的に解釈が難しい複雑な指標がいくらでも生まれてしまうからです。そこで、先生方とミーティングを重ねながら「この程度の複雑さなら臨床現場でも活用できる」という水準を探りつつ、人の手でチューニングを加えながら、AI技術とデータサイエンス、そして臨床の知見を組み合わせて研究を進めていきました。
井元:ミーティングには、慶應義塾大学病院の臨床医の先生方も参加されていて、日立さんから「B3」がつくった指標が提示されると、その意味を考え始めて喧々諤々の議論が盛り上がって来るのです。オンラインで1時間の枠しかとっていないと、「あぁ、もう終わりですか?」と名残惜しいことが何度もありましたね。
南宮:そうですね。パンデミック初期の2020年頃は、私を含めた周囲の臨床医は、AIに関する知識や素養はほとんどありませんでした。現在ではいろいろな生成AIが登場し、医療現場でも資料作成の補助といった目的で使われていますが、当時、最先端のAI技術はどこか遠い存在で、自分たちには関係のないものだと感じていた医師も多かったと思います。
ですが、「コロナ制圧タスクフォース」を通し、「B3」に触れて強く感じたのは、普段ぼんやり考えていることも、線形モデルと指標でしっかりと可視化されアウトプットされる。しかもその結果は、非常に“臨床の感覚”に合っていたのです。
AIがデータに基づいて予測精度を高めていった結果が、我々の実感と一致していたということに非常に大きな手応えがありました。
そうした体験を通し、あのパンデミックという特殊な環境で忙しく働き、孤立しがちな現場で、「自分たちもこうしたサイエンスに関わることができるんだ」と感じられたことも、臨床医を勇気づけ、前に進む希望や自信を持つきっかけになったように思います。
井元:恐らく次のパンデミックもまた起こるでしょう。その際には、新たな重症化予測モデルが必要になると考えますが、今回の成果は、診療の中で得たデータをどのように研究に応用し、病態理解につなげるかという点で、ひとつのモデルケースを提示できたと感じています。
――先生方はその後も同じチームで「非結核性抗酸菌症」の重症化予測モデルの研究を行われました。こちらは南宮先生が長年研究を重ねて来られた分野とお伺いしています。
南宮:はい。「非結核性抗酸菌症(以下、肺NTM症)」は慢性進行性の呼吸器感染症で、新型コロナ感染症と同じように症状の進行に個人差が大きく、無症候から重症、死亡例まで幅広い経過をとります。実は結核よりも患者数・死亡者数が多く、今後さらに深刻な課題となることも懸念されているため、長らく問題意識を持って研究テーマとし、外来診療に携わる中で多くの病院の先生方と協力しながら臨床情報と検体を集めてきました。
収集したデータにはオミクスデータ*が含まれていて、それを生かしたAI解析を、ぜひ「B3」で行いたいと考えました。
池上:実は、オミクスデータのように膨大な項目数がある場合、1症例あたりの情報量が非常に多くなり、通常のAIでは過学習を起こしやすいのです。しかし、B3は独自の次元圧縮・過学習抑制の機構を組み込んでいるため、小サンプル・高次元のデータでも精度を保った解析が可能です。
また、「肺NTM症」に関する解析では、単に重症化予測モデルの構築にとどまらず、複数の因子が解析結果にどのように影響を及ぼすかという因果関係についても追求した分析を行いました。具体的には、因果推論の手法を用いて、実際に因子同士がどのような相互作用を得て最終的にアウトカムになったのか、因果の構造も一緒に明らかにしました。そういった解析をすることによって、データの構造や疾患のメカニズムもより深く考察できたと考えています。
さらに、トポロジカルデータ解析(TDA)という手法も導入しました。TDAは、高次元で複雑な構造を持つ医療データに潜むパターンや特長を、データの点同士の関係性から生まれる“かたち”(分布のまとまり、ループ構造、枝分かれなど)として捉え、可視化・分析する方法です。
この手法により、従来の統計手法では捉えきれなかった患者群の特長的な分布や、見落とされがちな非線形な関係性を明らかにすることが可能になり、より深い病態理解につながったと考えています。
南宮:いろいろな因子同士の関係が見えてきて、既報や仮説に一致する点もありましたし、データドリブンで出された結果で初めて気づく点もありました。データドリブンだからこそ、私たちが想像しなかった解析結果が得られるという実感は、COVID-19の重症化予測モデルのときと同様に非常にありました。
井元:人による仮説はもちろん大切です。しかし、データドリブンな分析では、その仮説がどの程度正しいのか、仮説を超えるような変数の組み合わせはないのかどうかも検証できます。本当にないかもしれませんし、ある可能性もあります。それは人による認知バイアスのかからないデータ分析をして初めて分かることなのです。
南宮:そうですね。ですから私たちが用意するデータセットが、AIのポテンシャルを最大化する鍵だと思っています。次のステップでは、自分たちの仮説に基づく限られたデータだけでなく、より多くのクリーンなデータをしっかり集めて、AIをさらに有効活用したいと考えています。有効なデータの集め方のコツは、AIを使えば使うほど見えてくると感じているので今後が楽しみです。
中本:はい。私どもが先生方に「B3」を使っていただきたい理由もまさにそこです。先生方が臨床現場で培われた実感や知見と、未知の因子の探索に強みを持つデータドリブンなアプローチをうまく組み合わせることで、先生方のナレッジがさらにどんどん高まっていく。「B3」でそのお手伝いができることに大きなやりがいを感じています。
井元:日立さんのチームは医療のことをよく勉強していて、課題を一緒に考えることができ、議論が進んでいきました。AI技術の提供だけでなく、医療現場のことを理解してやろうという意気込みも皆さんの強さだと思います。
中本・池上・根本:ありがとうございます。
――南宮先生、今後、「B3」は医療研究の中でどのように役立つでしょうか?
南宮:そうですね。私は臨床と研究の両方に携わっていますが、「B3」を使うことで間違いなく研究はスピードアップします。よく言われることですが、時間短縮により、医師や看護師など各職種が臨床での本来の役割に、より集中できるようになると期待しています。
また、臨床では日々データが生み出されています。それらを十分に生かしきれていない方も多くいらっしゃると思います。感染症に限らず、がんや心疾患など主要疾患のあらゆる研究に汎用的に使え、従来の統計解析では捉えきれなかった気づきを与えてくれるのが「B3」です。
――井元先生、臨床研究分野のほかには、特にどのような領域でAI解析の活用が期待されているでしょうか?
井元:それはもう、すべてですね。仮説検証や新たな発見をデータ活用によって行おうとするすべての分野で「B3」は有用です。従来は人が仮説を立て、限られた組み合わせだけをテストしていました。しかし、今はAIが自動的に何億通り、さらに兆までいくような膨大な組み合わせを探索し効率よく筋の良い仮説を示してくれます。
データがあればデータ自身が判断し、根拠をもって可能性を示してくれるのですから。
中本:一般のAI利用は急速に進んでいますが、研究分野での活用となると、なかなか手をつけにくい、という声を聞きます。私たちは、先生方が取り組まれている研究課題に対して、AIをどのように活用できるかといった“問題設定”からご支援が可能です。研究費の獲得支援を含め、研究のどの段階からでもご相談いただけます。解析のご支援の方法としては、先生方と議論をしながら問題を解いていくといったオーダーメイドな対応が可能な「受託解析」に加え、先生方ご自身で解析を行っていただける「クラウドサービス」をご用意しておりますので、ぜひお気軽にご相談いただきたいです。