クラウドソーシングの仕事にAIが浸透することを私たちは皆心配すべきだ

クラウドソーシングの仕事にAIが浸透することを私たちは皆心配すべきだ

スイス連邦工科大学ローザンヌ校(EPFL)の研究者による新たな論文によると、AmazonのMechanical Turkサービスにおける分散型クラウドワーカーの33%から46%が、割り当てられた特定のタスクを遂行する際に「不正行為」を行った可能性がある。彼らはChatGPTなどのツールを用いて作業の一部をこなしていたのだ。こうした行為が蔓延すれば、深刻な問題となる可能性がある。

AmazonのMechanical Turkは、人間に仕事を任せたいと願う開発者にとって、長年の頼みの綱となってきました。簡単に言うと、人間にタスクを与え、人間がそれを実行し、結果を返すアプリケーション・プログラミング・インターフェース(API)です。こうしたタスクは、コンピューターがもっとうまくこなせるようにしたい類のものです。Amazonによると、そのようなタスクの例としては、「コンピューター・ビジョン・モデル用の高品質なデータセットを構築するために境界ボックスを描くといったタスクがあります。このタスクは、純粋に機械的なソリューションでは曖昧すぎる可能性があり、大規模な専門家チームでさえ対応できないほど膨大になる可能性があります。」などが挙げられます。

データサイエンティストは、データセットの出所(人間が生成したものか、大規模言語モデル(LLM)が生成したものか)に応じて扱いを変えます。しかし、Mechanical Turkの問題は、想像以上に深刻です。AIは今や安価に利用できるようになったため、機械生成ソリューションではなくMechanical Turkを選択するプロダクトマネージャーは、人間がロボットよりも何かに優れていると期待しているのです。このデータの源泉を汚染することは、深刻な影響を及ぼす可能性があります。

「LLMと人間が生成したテキストを区別することは、機械学習モデルにとっても人間にとっても困難です」と研究者らは述べています。そこで研究者らは、テキストベースのコンテンツが人間によって作成されたのか、機械によって作成されたのかを判断するための方法論を開発しました。

このテストでは、クラウドソーシングの作業員に、ニューイングランド・ジャーナル・オブ・メディシン誌の研究抄録を100語の要約にまとめるよう依頼しました。注目すべきは、まさにこれがChatGPTのような生成AI技術が得意とするタスクであるということです。

研究者が人間のクラウドワーカーに与えた指示のスクリーンショット。画像提供: EPFL (新しいウィンドウで開きます)

とはいえ、ここには有効なユースケースがあります。例えば、自分のLLMを人間と比較し、モデルの類似性や精度を検証したいとします。人間が作成した大規模なデータセットでテストするつもりだったのに、実際には他のLLMが作成した、出所や品質が不明なデータセットが渡されたとしたら、ボットの学習は困難を極めるでしょう。機械生成テキストでAIを学習させることは、バイアスを増幅させたり、誤ったデータを「確認」したりするなど、多くの理由から、災難を招くことになります。

研究者らは、LLM を使用してクラウドソーシング作業を行うと、「クラウドソーシングされたデータが意図した人間のゴールドスタンダードではなくなるため、クラウドソーシングされたデータの有用性が大幅に低下するだけでなく、クラウドワーカーに報酬を支払う代わりに(おそらく開示せずに)LLMに直接(そしておそらくより安価に)指示できるため」と主張しています。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

分かっています、私たちはここで後期資本主義について議論し始めています。もちろん、最低賃金のデータ入力労働者は、(しばしば退屈で反復的な)仕事を可能な限り効率的にこなすために、あらゆるツールを活用するでしょう。論文の著者が指摘するように、「クラウドワーカーには、生産性と収入を高めるために法学修士号(LLM)を取得する経済的インセンティブがある」のです。

一方で、あらゆる職種の労働者が、仕事をこなすためにあらゆるツールを使うのは珍しいことではありません。Dvorakキーボードの方がQWERTYキーボードよりも速く入力できるなら、それは素晴らしいことです。

一方で、この研究は機械学習のトレーニングデータセットにおける非常に深刻な課題を浮き彫りにしています。「ガベージイン、ガベージアウト」という古いコンピューター学の格言は今もなお有効です。トレーニングデータが信頼できないなら、出力も信頼できないのです。

TechCrunchでは、Haje(彼/彼)はテクノロジー全般のニュースをカバーし、主にハードウェアに焦点を当てていました。彼は様々な成功を収めた企業​​を複数設立し、ベンチャーキャピタル業界での経験を経て、キャリア初期からジャーナリストやテレビプロデューサーとして活躍しています。写真撮影には並々ならぬ興味を持ち、カメラを肩に担いでいる姿をよく見かけます。スタートアップ企業の投資家へのピッチングに関する著書も執筆しており、Twitterでは@Haje、その他の情報はHaje.meでご覧いただけます。

バイオを見る