#CHIBADAIストーリー

より自由に、使いやすく。データベースのオープン化〜実験が苦手だった学生は、なぜデータサイエンスの道に進んだのか 千葉大学 国際高等研究基幹 / 大学院医学研究院 准教授 大田 達郎[ Tazro OHTA ]

#データサイエンス#AI
2025.09.01

目次

この記事をシェア

  • Twitterでシェアする
  • Facebookでシェアする
  • LINEでシェアする
  • はてなブックマークでシェアする

※記事に記載された所属、職名、学年、企業情報などは取材時のものです

「データを集めて綺麗にすることが私の仕事です」と話すのは、国際高等研究基幹/大学院医学研究院/千葉大学データサイエンスコア(DSC)の大田達郎准教授。ヒトの遺伝情報をデータとして簡単に取得できるようになってきた一方で、解析には高度な知識と性能の高いコンピュータが求められる。大田准教授は、研究成果をソフトウェアやデータベースとして自由に使える形で公開することで、データサイエンスの発展に寄与している。「データサイエンスでは人々が交流する場が必要」と考える大田准教授に、データベースをオープン化することの面白さを聞いた。

研究者が解析しやすいようにデータを整える

——大田先生はデータサイエンスについて、どのような研究をされているのですか?

ゲノム科学など生命科学分野のデータベースを整理し、研究者が自由に扱いやすい形式にして公開することが私の仕事です。

データサイエンスは計算機(計算科学)、データ構造(ドメイン知識)、アルゴリズム(数理科学)の3本柱で説明されることがありますが、私は計算機とデータ構造を対象としています。データを整理して利活用するために必要な計算環境やソフトウェアを検討し、他の研究者が解析しやすいデータベースの構築やソフトウェアの開発を行っています。データサイエンスの土台となる部分を私が研究開発として担当している、と表現できると思います。

前職では「大学共同利用機関法人 情報・システム研究機構 ライフサイエンス統合データベースセンター(DBCLS)」に所属し、ゲノムデータの整備や、ヒトゲノムを含む個人情報保護とデータ活用を両立するシステム開発などを行っていました。生命科学の実験から得られたデータを情報学の手法で扱う「バイオインフォマティクス*」が私の研究分野です。

*「生命科学」と「情報科学」を組み合わせた分野。コンピュータを使ってDNAの配列やタンパク質の構造などのデータを解析し、生命のしくみを明らかにしたり、薬の開発などに役立てたりしている。

——千葉大学に着任してから研究スタイルなどに変化はありましたか?

医療データも扱うようになりました。例えば、千葉大学医学部附属病院の精神神経科、NTTプレシジョンメディシン株式会社、そして我々AI医学の共同研究では、薬の効き方の違いを患者さんのゲノムの個人差からの解明を目指しており、その過程で、データの取り扱いや解析方法などについて検討を重ねています。データの扱いでは解析に関するスキルだけでなく、臨床試験に伴う倫理規定や情報セキュリティに関する知識も必要になりますので、私はデータを保護しつつ研究が円滑に進むためのデータマネジメントの立場で参加しています。

また、前と比べて「こういう人たちが、このようにデータを使っているんだ」という実感があります。今までの仕事がデータベースを作る「中の人」だったので、実際にどんな人がどう使っているのかを肌で感じられる機会がなく、もどかしく思っていました。そういった問題意識があって千葉大学に来たのですが、現場の課題を知った上で実際にデータを使う先生方と隣で仕事ができ、データベースを作る人として手応えを感じています。

特に最近の大規模なデータ解析では、情報学の知識がないとプロジェクトが進まないという認識が広まり、サポート役というよりも二人三脚で研究に取り組んでいます。一人で黙々とやるよりも、いろんな人とチームで仕事をする方が自分に合っていると思っています。

思いがけない応用がオープンサイエンスの面白さ

——大田先生は熊本大学の鄒兆南先生、沖真弥先生らとエピゲノム統合データベース「ChIP-Atlas」を開発されており、2024年には大規模なアップデートを実施しました。これはどのようなものですか?

エピゲノムとは、DNAの塩基配列を変えずに遺伝子機能を調節するしくみのことです。世界中の研究者が様々な研究で生み出したエピゲノム解析データは、論文発表時に公開され、他の研究者が自由に活用できます。しかし現実には、高度な解析技術と豊富な計算資源が必要で、誰でも簡単に公開されたデータを扱えるわけではありません。

また、データの背景を記述するメタデータが表記統一されていないという問題もあります。例えば、男性のデータの場合、male、m、Mのどれで書いているかはデータによってバラバラです。maleだけを検索対象にしているとデータの取りこぼしが生じてしまいます。

その課題を解決するため、公開されているエピゲノムデータを全て集めてメタデータも整備し、統合したものをウェブブラウザで閲覧できるようにしたのが「ChIP-Atlas」です。今回のアップデートでは、ゲノム上の調節領域や染色体構造、疾患や体質に関連した変異情報を表示するアノテーショントラック(Annotation Track)*を追加し、2群間のデータを簡単に比較できるディフアナリシス(Diff Analysis)*も実装しました。これにより、専門的な知識や複雑な操作を必要とせず、比較したい条件をブラウザ上で選択するだけで視覚的に結果を確認できます。

* Annotation Track:ChIP-Atlasに収載されたデータに加え、外部データベースの情報も統合し、ゲノム上の重要な領域や染色体の構造などを視覚的に表示する仕組み。
* Diff Analysis:差分分析。異なる条件やグループ間でデータの違いを比較する解析手法。

——疾患解明や創薬に活用できそうですね。

個人的には「このために使ってほしい」という要望はないんです。むしろ、思ってもいなかった使い方をされるほうがうれしいです。

そもそもChIP-Atlasを一般公開した2015年当初、沖先生の専門である発生学のような基礎研究の分野で使われるだろうと考えていました。私は主に別のプロジェクトに従事していたので、沖先生自身が使いやすいように、と夏の自由研究として作ったんです。今では臨床研究で患者さんのゲノムデータの解析にも使われていますが、当時はそこまでポピュラーになるとは想像していませんでした。

データベースをオープンにする面白さは、思いがけない応用につながるところにあると思います。自分からは用途を限定せず、いろんな目的に使ってほしいですね。

——データ統合では海外のデータも含めると思いますが、課題などはありますか?

ゲノム科学の分野ではオープンサイエンスの考えが世界で根付いていますが、国によって倫理観や個人情報などの扱いに関する規制が異なります。各国の価値観を尊重し、研究の正当性を踏まえたデータ共有について、国をまたいだコミュニティで議論する必要があると思います。

欧米では議論するコミュニティが多くありますが、アジアではこれまであまり例がありませんでした。そこで最近、アジアのナショナルプロジェクトに関わっている人たちを集めて議論を行いました。将来的には、データ共有に関する声明を何らかの形で発表することを目指しています。

データサイエンスで重要なのは「場があること」

——大田先生はどういった経緯で今の研究分野に進んだのですか?

学生のときは植物病理学を専攻して、植物に感染するカビやウイルスの研究をしていましたが、あまり実験が上手くなかったんです。特に大学院に進学したときはなかなか実験が進まず苦労していました。

そんなとき、統合データベースセンターで現広島大学教授の坊農秀雅先生がリサーチアシスタントの学生を募集していることを知り、応募して初めてバイオインフォマティクスに触れました。そこで、実験が下手で再現性が取れない自分でも、コンピュータを使うと毎回同じ結果になることに驚きました。もちろん、バージョン違いなどで違う結果が出ることもあるのですが、培養実験などで苦労した経験からすると、何回も気軽に試せるんだという感動がありました。

センターには情報学の学生もいて、彼らに生命科学のことを話し、彼らからはプログラムについて教えてもらうなど、楽しい交流ができていい環境だと感じました。修士課程を修了してからそこに就職し、技術員として研究開発を続けていました。

——大田先生はさまざまなイベントの運営に関わっていると聞きました。どのようなものがありますか?

長くやっているのが DBCLS BioHackathonです。ハッカソンと銘打っていますが競い合いはせず、生命科学のデータ解析に関わる人が数日にわたって研究課題やソフトウェア開発について議論を交わす、合宿形式のイベントです。

普段なかなか顔を合わせることのない、海外や異分野の人たちと深い議論や交流ができる場を作ることは、データサイエンスでは重要だと考えています。場があると新しい人が来てネットワークが生まれ、困ったときに気軽にメッセージを送れるかどうかで研究の生産性が大きく変わるからです。

私自身が副ダイレクターとして関わっている千葉大学のDSCでも3泊4日でデータサイエンスハッカソンを開催しました。分野を超えた研究者のつながりは研究の上で大きなメリットになり、そのための場があり続けることは大学の資産になると思います。場を作ることは、長期的に考えればサイエンスの一部であり、場があるからこそ自分の仕事が進むと感じています。

人とのネットワークを作って研究の可能性を広げよう

——最後に、学生や若手研究者に向けてメッセージをお願いします。

私自身、キャリアやバックグラウンドが王道ではないので、学生には「先のキャリアを考えるとき、あまり型にはめないように」と伝え、自由な発想で自分の道を進んでほしいと思います。

若手研究者には、いろいろなコミュニティに出向くことをぜひ考えてほしいです。研究スタイルは人それぞれかもしれませんが、多くの人と知り合ってネットワークを作り、一緒に仕事をしていくと研究の可能性がどんどん広がると思います。

● ● Off Topic ● ●

 

今まで、こんな珍しいデータを解析したという経験はありますか?

 
 

次世代シーケンサーというDNA解析装置のコミュニティで、ソメイヨシノの花びらにいる細菌をみんなでサンプリング、解析する企画をやったことがあります。題して「お花見メタゲノム」です。

 
 

風情のある名前ですね!

 
 

他にも腸内細菌の研究とか、いろいろやってきました。分野に限定されない面白さもありますね。

 

インタビュー / 執筆

島田 祥輔 / Shosuke SHIMADA

名古屋大学大学院理学研究科修了。
食品メーカーで製造および商品開発を経験後、2012年からフリーランスライターとして活動中。
得意分野は生命科学、医学。記事には情熱を注ぎつつも正確性を重視し、誇張なしでサイエンスの魅力を広げることに注力します。

撮影

関 健作 / Kensaku SEKI

千葉県出身。順天堂大学・スポーツ健康科学部を卒業後、JICA青年海外協力隊に参加。 ブータンの小中学校で教師を3年務める。
日本に帰国後、2011年からフォトグラファーとして活動を開始。
「その人の魅力や内面を引き出し、写し込みたい」という思いを胸に撮影に臨んでいます。

次に読むのにおすすめの記事

このページのトップへ戻ります