Google、インドの非英語話者向けに言語対応を拡大

Google、インドの非英語話者向けに言語対応を拡大

インドには6億人以上のインターネットユーザーがいますが、そのうち英語を流暢に話せるのはほんの一部です。しかし、現在、ほとんどのオンラインサービスとウェブ上のコンテンツの多くは英語のみで提供されています。

この言語の壁は、世界第 2 位のインターネット市場におけるデジタル格差の拡大に引き続き寄与しており、何億人ものユーザーによるワールド ワイド ウェブの利用が、限られた少数の Web サイトやサービスに限定されています。

したがって、インドなどの新興市場での成長継続を期待しているアメリカの巨大テクノロジー企業が、ウェブや自社のサービスをより多くの人々に利用しやすくしようと努めているのも不思議ではない。

一例を挙げると、ウェブページの内容を英語からインドの言語に素早く翻訳するために Google が提供する機能は、過去 1 年間でインドのユーザーによって 170 億回以上使用されています。

これまでこの取り組みを主導してきたGoogleは、木曜日に新たな取り組みの一部を発表した。インドをユーザー数で最大の市場と位置づけ、今後数年間でインドに100億ドル以上を投資することを今年表明している同社は、インドのGoogleリサーチセンターにおける機械学習とAIへの投資を強化し、エコシステム全体の誰もがAIモデルを利用できるようにすることを計画していると述べた。また、現地の言語でユーザーにサービスを提供している現地のスタートアップ企業と提携し、インド語圏のユーザーにとってGoogle製品とサービスの体験を「劇的に」向上させる計画だ。

グーグル、インドに100億ドルを投資

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

その最後の部分に関して、同社は本日、より多くの現地言語に対応できるよう自社のサービスの一部に展開する一連の変更を発表し、言語を翻訳するためのまったく新しいアプローチを披露した。

製品の変更

ユーザーは、現在利用可能な英語とヒンディー語に加え、タミル語、テルグ語、ベンガル語、マラーティー語でも検索クエリの検索結果を表示できるようになります。これは、Googleがインドの検索ページにヒンディー語タブを追加してから4年後のことです。同社によると、このタブの導入後、ヒンディー語での検索クエリの量は10倍以上に増加しました。例えば、検索クエリをタミル語で表示したい場合は、英語の横にタミル語タブを設定し、2つの言語を素早く切り替えることができるようになります。

検索結果を現地の言語で表示できることは便利ですが、多くの場合、ユーザーは検索クエリを現地の言語でも入力したいと考えています。Googleによると、英語以外の言語での入力も、ユーザーが現在直面しているもう一つの課題となっています。「その結果、多くのユーザーは、自分が理解できる現地の言語で検索結果を見たいと思っていても、英語で検索してしまいます」と同社は述べています。

この課題に対処するため、検索では、現地語のクエリが英語で入力された場合でも、適切な場合にはサポートされているインド言語で関連コンテンツが表示されるようになります。この機能は来月中に展開される予定で、ヒンディー語、ベンガル語、マラーティー語、タミル語、テルグ語の5つのインド言語をサポートしています。

Googleはまた、デバイスの言語設定を変更することなく、アプリ内で検索結果に表示される言語をユーザーが簡単に変更できるようにしました。この機能は現在、DiscoverとGoogleアシスタントで利用可能ですが、今後はマップでも利用可能になります。マップはインドの9つの言語をサポートしています。

同様に、Google Lensの宿題機能は、数学や理科の問題を撮影すると解答が表示され、解答に至るまでの手順を生徒に案内してくれますが、今回ヒンディー語に対応しました。Google Indiaのシニアプロダクトマネージャー、ニディ・グプタ氏はイベントで、インドはGoogle Lensにとって最大の市場だと述べました。

設立2年のインドのEdTechスタートアップDoubtnutが1500万ドルを調達

コンサルティング会社コンバージェンス・カタリストのチーフアナリスト、ジャヤンス・コラ氏は、グーグルレンズの新機能は、同様の分野で事業を展開するセコイア・キャピタルが出資するダウトナットなど一部のインドの新興企業にとって脅威となる可能性があると述べた。

ムリル

Google幹部はまた、インド言語向け多言語表現(MuRIL)と名付けた新しい言語AIモデルの詳細も発表した。このモデルは、翻字、綴りのバリエーション、混合言語、そして言語のニュアンスをより効率的かつ正確に処理する。Google Research Indiaのリサーチサイエンティスト、パルタ・タルクダー氏は木曜日のオンラインイベントで、MuRILはヒンディー語をローマ字で表記する際に翻字テキストをサポートするが、これは従来の同種のモデルには欠けていた機能だと説明した。

同社によると、この新モデルはWikipediaの記事と「Common Crawl」と呼ばれるデータセットのテキストで学習させたという。また、Wikipediaをはじめとする様々なソースから音訳されたテキスト(Googleの既存のニューラル機械翻訳モデルに入力)でも学習させた。その結果、MuRILは従来のより汎用的な言語モデルよりもインド諸語を的確に処理できるようになり、音訳された文字や単語(つまり、Googleが異なるアルファベットや文字体系の最も近い文字を使用している)にも対応できるようになった。

タルクダール氏は、Googleが以前使用していたモデルは言語ごとに個別にモデルを構築しなければならなかったため、スケーラビリティに問題があったと指摘した。「このようなタスクにはトレーニングデータが不足している場合が多いため、あらゆるタスクごとに言語固有のモデルを構築するのはリソース効率が悪い」と同氏は述べた。MuRILは以前のモデルを大幅に上回り、ネイティブテキストでは10%、翻字テキストでは27%の性能向上を実現している。MuRILはGoogle幹部がインドで開発し、約1年間使用されてきたが、現在はオープンソースとなっている。

MuRILは16のインド言語と英語をサポートしています。画像: Google

MuRILが得意とする多くのタスクの一つは、文の感情を判断することです。例えば、「Achha hua account bandh nahi hua(アチャ・フア・アカウント・バンド・ナヒ・フア)」は以前は否定的な意味として解釈されていましたが、MuRILはこれを肯定的な表現として正しく認識します、とタルクダール氏は述べています。また、人か場所を分類する能力も挙げられます。「Shirdi ke sai baba(シルディ・ケ・サイ・ババ)」は以前は場所として解釈されていましたが、これは誤りです。しかし、MuRILはこれを人として正しく認識します。