38歳の彼女のために 誕生日の日、チェラ・ロブレスと彼女の家族は、ブリスケットサンドイッチとブラウニーを求めて、カリフォルニア州ベニシアにある彼女のお気に入りのパン屋、ワンハウスへ向かいました。 家に帰る車の中で、彼女はこめかみにある小さなタッチスクリーンをタップして、外の世界の説明を求めました。 「曇り空です」と彼女の Google Glass を通して返事が返ってきた。
ロブレスさんは28歳の時に左目の視力を失い、その1年後に右目の視力を失いました。 失明すると、顔の合図や表情など、人々がお互いを結びつけるのに役立つ小さな詳細が得られなくなる、と彼女は言う。 たとえば、彼女の父親は辛口のジョークをよく言うので、彼女は父親がいつ本気なのかを常に確信できません。 「一枚の写真が 1,000 の言葉を伝えることができるとしたら、表情がどれだけの言葉を伝えることができるか想像してみてください」と彼女は言います。
ロブレスさんは過去に、目の見える人々に助けを求めるサービスを試したことがある。 しかし4月、彼女はAsk Envisionのトライアルにサインアップした。Ask Envisionは、OpenAIのGPT-4を使用するAIアシスタントで、画像とテキストを取り込み、会話型の応答を出力できるマルチモーダルモデルだ。 このシステムは、視覚障害者が言語モデルの統合を開始するためのいくつかの支援製品のうちの 1 つであり、ユーザーに周囲の世界について視覚的に詳細な情報を提供し、さらに自立性を高めることを約束します。
Envision は、2018 年に写真内のテキストを読むためのスマートフォン アプリとしてリリースされ、2021 年初めには Google Glass 上でリリースされました。今年初め、同社は基本的な質問に答えることができるオープンソースの会話モデルのテストを開始しました。 その後、Envision は画像からテキストへの記述に OpenAI の GPT-4 を組み込みました。
ユーザーが周囲の物体を識別できるようにする 12 年前からあるアプリ、Be My Eyes は 3 月に GPT-4 を採用しました。 MicrosoftのAI責任者サラ・バード氏によると、OpenAIの主要投資家であるMicrosoftは、同様の機能を提供するSeeingAIサービス向けにGPT-4の統合テストを開始したという。
以前のイテレーションでは、Envision は画像内のテキストを最初から最後まで読み上げました。 写真内のテキストを要約し、フォローアップの質問に答えることができるようになりました。 つまり、Ask Envision はメニューを読み、価格、食事制限、デザートのオプションなどに関する質問に答えることができるようになりました。
同じくAsk Envisionの初期テスターであるRichard Beardsley氏は、通常、請求書に記載されている連絡先情報を見つけたり、食品の箱に記載されている成分リストを読んだりするためにこのサービスを利用していると語った。 Google Glass によるハンズフリー オプションがあるということは、盲導犬のリードと杖を持ちながらも Google Glass を使用できることを意味します。 「以前は、テキストの特定の部分にジャンプすることはできませんでした」と彼は言います。 「これがあると、探しているものに正確にアクセスできるので、本当に生活が楽になります。」
盲目のコンピュータ科学者であり、博物館やテーマパーク、Google や Microsoft などのテクノロジー企業にアクセシビリティとインクルージョンについてアドバイスを提供するコンサルタント会社の責任者であるシーナ・バーラム氏は、AI を盲導犬製品に統合することはユーザーに大きな影響を与える可能性があると述べています。
Bahram 氏は GPT-4 で Be My Eyes を使用しており、この大規模な言語モデルは、その機能のおかげで、また製品が簡単に使用でき、技術的なスキルを必要としないため、前世代の技術と比べて「桁違い」の違いを生み出していると述べています。 2週間前、ニューヨーク市の通りを歩いていたとき、ビジネスパートナーが何かをよく見ようと立ち止まったと彼は言う。 Bahram は、GPT-4 で Be My Eyes を使用して、それがステッカーのコレクションであり、漫画風のものもあれば、テキストや落書きを加えたものであることを学びました。 このレベルの情報は「1年前には研究室の外には存在しなかったもの」だと彼は言う。 「それは不可能でした。」