テキストから画像への AI システムである Stable Diffusion を開発しているベンチャー支援のスタートアップである Stability AI は、バイオテクノロジーの最前線に AI を適用するための幅広い取り組みに資金を提供しています。 呼ばれた OpenBioMLこの取り組みの最初のプロジェクトは、DNA 配列決定、タンパク質フォールディング、計算生化学に対する機械学習ベースのアプローチに焦点を当てます。
Stability AI の CEO である Emad Mostaque 氏によると、OpenBioML の創設者は、OpenBioML を「オープンな研究所」と表現しています。これは、学生、専門家、研究者が参加して協力できる環境で、AI と生物学の交差点を探求することを目的としています。
「OpenBioML は Stability がサポートする独立した研究コミュニティの 1 つです」と Mostaque 氏は TechCrunch の電子メール インタビューで語った。 「安定性は AI の開発と民主化を目指しており、OpenBioML を通じて、科学、健康、医学の最先端を前進させる機会があると考えています。」
Stable Diffusion — OpenAI の DALL-E 2 と同様に、テキスト記述からアートを生成する Stability AI の AI システム — をめぐる論争を考えると、Stability AI のヘルスケアへの最初のベンチャーに当然のことながら警戒するかもしれません。 このスタートアップは、ガバナンスに対して自由放任のアプローチを採用しており、開発者は有名人のディープフェイクやポルノなど、好きなようにシステムを使用できます。
安定性 AI のこれまでの倫理的に疑わしい決定はさておき、医学における機械学習は地雷原です。 この技術は、特に皮膚や眼の病気などの状態を診断するためにうまく適用されていますが、研究では、アルゴリズムが一部の患者のケアを悪化させるバイアスを生み出す可能性があることが示されています。 2021年4月 勉強たとえば、メンタルヘルス患者の自殺リスクを予測するために使用される統計モデルは、白人とアジア人の患者ではうまく機能しましたが、黒人の患者ではうまく機能しませんでした.
OpenBioML は賢明にも、より安全な領域から始めています。 その最初のプロジェクトは次のとおりです。
- BioLM、自然言語処理 (NLP) 技術を計算生物学および化学の分野に適用しようとしています。
- DNA拡散、テキスト プロンプトから DNA シーケンスを生成できる AI の開発を目指しています。
- リブレフォールド、DeepMind の AlphaFold 2 と同様の AI タンパク質構造予測システムへのアクセスを増やすように見えます
各プロジェクトは独立した研究者によって主導されていますが、Stability AI は AI システムをトレーニングするために、5,000 を超える Nvidia A100 GPU の AWS でホストされたクラスターへのアクセスという形でサポートを提供しています。 パルマ大学のコンピューター サイエンスの学部生であり、 OpenBioML、これは 最終的に最大 10 個の異なる AlphaFold 2 のようなシステムを並行してトレーニングするのに十分な処理能力とストレージ。
「計算生物学の研究の多くは、すでにオープンソースのリリースにつながっています。 しかし、その多くは単一の研究室のレベルで発生するため、通常は計算リソースが不十分なために制約を受けます」と Zanichelli 氏は TechCrunch に電子メールで語った。 「私たちは、大規模なコラボレーションを促進することでこれを変えたいと考えています。Stability AI のサポートのおかげで、最大の産業研究所だけがアクセスできるリソースとのコラボレーションを後押しします。」
DNA配列の生成
の OpenBioML の進行中のプロジェクト、 マサチューセッツ総合病院とハーバード大学医学部の病理学教授であるルカ・ピネロの研究室が率いる DNA 拡散は、おそらく最も野心的なものです。 目標は、生成型 AI システムを使用して、生物内の特定の遺伝子の発現に影響を与える DNA の「調節」配列、または核酸分子のセグメントのルールを学習して適用することです。 多くの病気や障害は、遺伝子の調節ミスの結果ですが、科学は、これらの調節配列を特定するための信頼できるプロセスをまだ発見していません。
DNA-Diffusion は、拡散モデルとして知られるタイプの AI システムを使用して、細胞型固有の調節 DNA 配列を生成することを提案しています。 Stable Diffusion や OpenAI の DALL-E 2 などの画像ジェネレーターを支える拡散モデルは、多くの既存のデータ サンプルを破棄して復元する方法を学習することで、新しいデータ (DNA シーケンスなど) を作成します。 サンプルを与えられると、モデルは、以前に破壊したすべてのデータを回復して新しい作品を生成する能力が向上します。
「拡散は、マルチモーダルな生成モデルで広く成功を収めており、現在、たとえば新しいタンパク質構造の生成など、計算生物学に適用され始めています」と Zanichelli 氏は述べています。 「DNA-Diffusion を使用して、現在、ゲノム配列への応用を検討しています。」
すべてが計画通りに進めば、DNA 拡散プロジェクトは、「X 型細胞で遺伝子を最大発現レベルまで活性化する配列」や「その配列を肝臓と心臓の遺伝子を活性化しますが、脳では活性化しません。」 このようなモデルは、調節配列の構成要素を解釈するのにも役立つ可能性がある、と Zanichelli は述べている。さまざまな疾患における調節配列の役割に関する科学界の理解が深まるだろう。
これは主に理論的なものであることに注意してください。 タンパク質の折り畳みに拡散を適用する予備研究のようですが、 有望なまだ初期段階にあると Zanichelli 氏は認めています。そのため、より幅広い AI コミュニティを巻き込むことが求められています。
タンパク質構造の予測
OpenBioML の LibreFold は、範囲は小さいですが、すぐに実を結ぶ可能性が高くなります。 このプロジェクトは、タンパク質構造を予測する機械学習システムと、それらを改善する方法をよりよく理解することを目指しています。
私の同僚である Devin Coldewey が、DeepMind の AlphaFold 2 に関する研究についての記事で取り上げたように、タンパク質の形状を正確に予測する AI システムは、この分野では比較的新しいものですが、その可能性という点では革新的です。 タンパク質は、生体内でさまざまなタスクを達成するために形状に折り畳まれるアミノ酸の配列で構成されています。 酸の配列がどのような形になるかを決定するプロセスは、かつては困難でエラーが発生しやすい作業でした。 AlphaFold 2 のような AI システムがそれを変えました。 それらのおかげで、人体のタンパク質構造の 98% 以上が今日の科学で知られているだけでなく、大腸菌や酵母などの生物の何十万もの他の構造も知られています。
ただし、この種の AI を開発するために必要なエンジニアリングの専門知識とリソースを持っているグループはほとんどありません。 DeepMind は、Google の高価な AI アクセラレータ ハードウェアである Tensor Processing Unit (TPU) で AlphaFold 2 のトレーニングに何日も費やしました。 また、酸配列のトレーニング データ セットは、多くの場合、所有されているか、非商用ライセンスでリリースされています。
「これは残念です。コミュニティが DeepMind によってリリースされた AlphaFold 2 チェックポイントの上に構築できたものを見ると、信じられないほどです」と Zanichelli 氏は、DeepMind が昨年リリースしたトレーニング済みの AlphaFold 2 モデルに言及して述べました。 . 「たとえば、リリースのわずか数日後、ソウル大学校の Minkyung Baek 教授は、モデルが予測できるトリックを Twitter で報告しました。 四次構造 — モデルができることを期待していた人はほとんどいませんでした。 この種の例は他にもたくさんあるので、まったく新しい AlphaFold のようなタンパク質構造予測方法を訓練する能力があれば、より広い科学コミュニティが何を構築できるかを誰が知っているでしょうか?」
RoseTTAFold と OpenFold の成果に基づいて、AlphaFold 2 を再現するための 2 つの進行中のコミュニティの取り組みであり、 LibreFold は、さまざまなタンパク質フォールディング予測システムを使用した「大規模な」実験を容易にします。 ザニケリ氏によると、ユニバーシティ カレッジ ロンドン、ハーバード、ストックホルムの研究者が先頭に立って、LibreFold の焦点は、システムが達成できることとその理由をよりよく理解することです。
「LibreFold は、コミュニティによる、コミュニティのためのプロジェクトです。 モデル チェックポイントとデータ セットの両方のリリースについても同じことが言えます。最初の成果物のリリースを開始するのに 1 ~ 2 か月しかかからないか、それよりもはるかに長くかかる可能性があるからです」と彼は言いました。 「そうは言っても、私の直感では、前者の可能性が高いです。」
生化学への NLP の適用
より長い時間軸では、 OpenBioML の BioLM プロジェクトは、「NLP から派生した言語モデリング技術を生化学シーケンスに適用する」という漠然とした使命を持っています。 いくつかのオープンソースのテキスト生成モデルをリリースした研究グループである EleutherAI と協力して、BioLM は、タンパク質配列の生成を含むさまざまなタスクのための新しい「生化学的言語モデル」をトレーニングして公開したいと考えています。
Zanichelli は、Salesforce の プロジェン BioLM が着手する可能性のある作業の種類の例として。 ProGen は、アミノ酸配列を文中の単語のように扱います。 2 億 8000 万を超えるタンパク質配列と関連するメタデータのデータ セットでトレーニングされたモデルは、文の終わりを最初から予測する言語モデルのように、前のアミノ酸セットから次のアミノ酸セットを予測します。
Nvidia は今年初めに言語モデルをリリースしました。 メガモルバート、潜在的な薬物標的を検索し、化学反応を予測するために、何百万もの分子のデータセットでトレーニングされました。 メタも最近 訓練を受けた タンパク質の配列に関する ESM-2 と呼ばれる NLP は、同社が主張するアプローチにより、わずか 2 週間で 6 億を超えるタンパク質の配列を予測することができました。
先を見据えて
OpenBioML の関心は幅広い (そして拡大している) ものですが、Mostaque 氏は、科学と医学におけるオープン リサーチの伝統に従って、「生物学における機械学習と AI のポジティブな可能性を最大化する」という願望によって統一されていると述べています。
「私たちは、研究者がアクティブ ラーニングやモデル検証の目的で実験パイプラインをより詳細に制御できるようにしたいと考えています」と Mostaque 氏は続けます。 「また、現在の計算生物学のほとんどを特徴付ける専門的なアーキテクチャや学習目標とは対照的に、ますます一般的なバイオテクノロジー モデルで最先端を押し進めようとしています。」
しかし、最近 1 億ドル以上を調達した VC 支援のスタートアップから予想されるように、Stability AI は OpenBioML を純粋な慈善活動とは見なしていません。 Mostaque 氏は、OpenBioML の技術が十分に進歩し、十分に安全になり、適切な時期が来たら、同社は OpenBioML からの技術の商業化を検討する用意があると述べています。