クリストファー・ブジーは ボットの先を行こうとしています。 人気のボット検出システムである Bot Sentinel の背後にいる人物として、彼と彼のチームは、機械学習モデルが「古くなる」ことを恐れて、機械学習モデルを継続的に更新しています。 タスク? 停止されたアカウントからの 320 万件のツイートを「ボット」または「ノット」の 2 つのフォルダに分類します。
ボットを検出するために、Bot Sentinel のモデルはまず、データへの露出を通じて、どのような問題のある動作が行われているかを学習する必要があります。 また、モデルに 2 つの異なるカテゴリ (ボットかボットでないか) のツイートを提供することで、Bouzy のモデルはそれ自体を調整し、ツイートを問題にしているものの本質を見つけることができると言われています。
トレーニング データは、あらゆる機械学習モデルの心臓部です。 急成長しているボット検出の分野では、ボット ハンターがツイートを定義してラベルを付ける方法によって、システムがボットのような動作を解釈および分類する方法が決まります。 専門家によると、これは科学というより芸術のようなものです。 「結局のところ、ラベリングを行っているときの雰囲気が重要です」と Bouzy 氏は言います。 「ツイートの言葉だけではなく、文脈が重要です。」
彼はボット、彼女はボット、みんなボット
誰もがボットを狩る前に、ボットとは何かを理解する必要があります。その答えは、誰に尋ねるかによって異なります。 インターネットは、ささいな政治的意見の相違をめぐってお互いをボットだと非難する人々であふれています。 トロールはボットと呼ばれます。 プロフィール写真がなく、ツイートやフォロワーが少ない人はボットと呼ばれます。 プロのボット ハンターの間でも、答えは異なります。
Bouzy はボットを「問題のあるアカウント」と定義し、Bot Sentinel を訓練してそれらを排除します。 インディアナ大学の情報学およびコンピューター サイエンスの教授である Filippo Menczer 氏は、彼が開発を支援しているツール Botometer は、ソフトウェアによって少なくとも部分的に制御されるアカウントとしてボットを定義していると述べています。 Kathleen Carley は、カーネギー メロン大学の Institute for Computer software Research のコンピューター サイエンスの教授であり、2 つのボット検出ツールの開発を支援してきました。 ボットハンター と ボットバスター. Carley は、ボットを「完全に自動化されたソフトウェアを使用して実行されるアカウント」と定義しています。この定義は、Twitter の定義と一致しています。 「ボットは自動化されたアカウントであり、それ以上でもそれ以下でもありません」と同社は述べています。 2020年5月のブログ記事に書いた プラットフォーム操作について。
定義が異なるように、これらのツールが生成する結果は常に一致するとは限りません。 たとえば、Botometer によってボットとしてフラグが付けられたアカウントは、Bot Sentinel で完全に人間らしく戻ってくる可能性があり、その逆も同様です。
これの一部は設計によるものです。 自動化または部分的に自動化されたアカウントを特定することを目的とする Botometer とは異なり、Bot Sentinel は有毒なトローリングに関与しているアカウントを探しています。 Bouzy によると、これらのアカウントを見ればすぐにわかります。 それらは自動化されているか人間が制御している可能性があり、嫌がらせや偽情報に関与し、Twitter の利用規約に違反しています。 「最悪の中の最悪です」とブージーは言います。
Botometer は、インディアナ大学の Observatory on Social Media で情報学の博士号を取得しようとしている Kaicheng Yang によって維持されており、Menczer と共にツールを作成しました。 また、このツールは機械学習を使用してボットを分類しますが、Yang がモデルをトレーニングするとき、嫌がらせや利用規約違反を必ずしも探しているわけではありません。 彼はボットを探しているだけです。 Yang 氏によると、トレーニング データにラベルを付けるとき、次の 1 つの質問を自問します。 信じる ツイートは人からのものですか、それともアルゴリズムからのものですか?」
アルゴリズムのトレーニング方法
ボットを定義する方法についてコンセンサスがないだけでなく、アカウントがボットであるかどうかを正確に予測するために研究者が指摘できる単一の明確な基準やシグナルもありません。 ボット ハンターは、アルゴリズムを数千または数百万のボット アカウントに公開することで、コンピューターがボットのような動作を検出できるようになると考えています。 しかし、ボット検出システムの客観的な効率は、それを構築するためにどのデータを使用するかについて、人間がまだ判断を下さなければならないという事実によって混乱しています。
たとえば、ボトメーターを取ります。 ヤン氏によると、ボトメーターは約 20,000 のアカウントからのツイートでトレーニングされています。 これらのアカウントの一部はボットとして自己識別されますが、大部分は、アルゴリズムによって処理される前に、Yang と研究者チームによって手動で分類されます。 (Menczer は、Botometer のトレーニングに使用されたアカウントの一部は、他の査読済み研究のデータセットに基づいていると述べています。と言います。)