さまざまな研究グループが、過去 10 年間のほぼ半分の間、AI ドクターのアイデアをほのめかしてきました。 12 月下旬、Google と DeepMind のコンピューター サイエンティストは、患者の症状に基づいて病状を診断できる AI 臨床医のバージョンを発表しました。 手のひら.
あたり プレプリント紙 グループが公開した、彼らのモデルは、米国の医療免許試験の問題を含むベンチマーク テストで 67.6% のスコアを獲得し、以前の最先端のソフトウェアを 17% 上回ったと彼らは主張しています。 その 1 つのバージョンは、人間の臨床医と同様のレベルで実行されました。 ただし、このアルゴリズムには多くの注意事項があり、それを好む人もいます。
モデルに関するいくつかの簡単な事実を次に示します。このモデルは、一般的に検索される 3,000 を超える医学的質問のデータセットと、医学的検査や医学研究文献を含む、医学的質問と回答のための 6 つの既存のオープン データセットでトレーニングされました。 テスト段階で、研究者は 2 つのバージョンの AI からの回答を人間の臨床医と比較し、これらの回答の正確性、事実性、関連性、有用性、現在の科学的コンセンサスとの一貫性、安全性、バイアスを評価しました。
Adriana Porter Felt は、Google Chrome で作業するソフトウェア エンジニアであり、論文の一部ではありませんでしたが、次のように述べています。 ツイッター 人間の臨床医と同じように医学的質問に答えたモデルのバージョンは、「面倒でスケーリングしない人間のプロセスである指示プロンプトの調整」の追加機能を説明しています。 これには、AI が正しい情報を取得できるように、特定の方法で質問の文言を慎重に微調整することが含まれます。
[Related: Google is launching major updates to how it serves health info]
研究者たちは論文の中で、彼らのモデルは「有望に機能するが、依然として臨床医より劣っている」と書いており、モデルの「理解力」は [of medical context]、知識の想起、および医学的推論は、モデルの規模と指示の迅速な調整によって改善されます。」 たとえば、AI のすべてのバージョンは重要な情報を見逃しており、回答に不正確または不適切なコンテンツを含む割合が人間よりも高かった。
言語モデルは、より複雑で大量の情報を解析する能力が向上しています。 そして、彼らは科学的知識と推論を必要とするタスクを問題なくこなすようです。 を含むいくつかの小さなモデル サイバート と PubMedBERT、言語モデルの境界を押し広げて、専門用語や専門用語が満載のテキストを理解しました。
しかし、生物医学および科学の分野では、複雑な要因が絡み合っており、未知のことがたくさんあります。 もしAIが間違っていたら、誰が 責任を取る 不正のために? アルゴリズムの大部分が機能している場合、エラーの原因をソースまでたどることができますか? ブラックボックスのように? さらに、これらの アルゴリズム (プログラマーによってコンピューターに与えられる数学的な指示) は不完全であり、完全である必要があります。 正しいトレーニング データ、さまざまな人口統計のさまざまな条件で常に利用できるとは限りません。 さらに、健康データを購入して整理することで、 高価になる.
多肢選択式の標準化されたテストで質問に正しく答えるだけでは、知性は伝わりません。 また、実際の臨床例が提示された場合、コンピューターの分析能力は不十分になる可能性があります。 したがって、これらのテストは紙の上では見事に見えますが、これらの AI のほとんどは 展開の準備ができていません. 検討 IBM の Watson AI ヘルス プロジェクト. 数百万ドルの投資があったとしても、依然として多くの問題があり、実用性や柔軟性が十分ではありませんでした (最終的に内破し、 部品として販売)。
Google と DeepMind は、この技術の限界を認識しています。 彼らはその論文で、このモデルが実際に有用であるためには、開発と改善が必要な領域がまだいくつかあると書いています.不確実性を人間の臨床医または患者に効果的に伝えます。