OpenAIが文字起こしと音声生成AIモデルをアップグレード

OpenAIが文字起こしと音声生成AIモデルをアップグレード

OpenAI は、同社の API に新しい文字起こしおよび音声生成 AI モデルを導入しており、同社によれば、以前のリリースよりも改善されているとのことです。

OpenAIにとって、これらのモデルは、より広範な「エージェント」というビジョン、つまりユーザーに代わってタスクを自律的に実行できる自動化システムの構築に合致する。「エージェント」の定義は議論の余地があるかもしれないが、OpenAIの製品責任者であるオリヴィエ・ゴドマン氏は、企業の顧客と対話できるチャットボットという一つの解釈を示した。

「今後数ヶ月で、さらに多くのエージェントが登場するでしょう」と、ゴデメント氏はTechCrunchのブリーフィングで語った。「ですから、顧客と開発者が便利で、利用可能で、正確なエージェントを活用できるように支援することが、私たちの大きなテーマです。」

OpenAIは、新しいテキスト読み上げモデル「gpt-4o-mini-tts」は、前世代の音声合成モデルよりもニュアンス豊かでリアルな音声を実現するだけでなく、より「操作性」が高いと主張しています。開発者はgpt-4o-mini-ttsに自然言語での発話方法を指示することができます。例えば、「マッドサイエンティストのように話す」や「マインドフルネスの先生のように落ち着いた声で話す」といった指示を出すことができます。

これが「真の犯罪風」の、古びた声だ。

以下は女性の「プロフェッショナル」な音声のサンプルです。

OpenAIのプロダクトスタッフの一員であるジェフ・ハリス氏は、開発者が音声の「体験」と「コンテキスト」の両方をカスタマイズできるようにすることが目標だとTechCrunchに語った。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

「状況によっては、単調で単調な音声だけでは不十分です」とハリス氏は述べた。「カスタマーサポートでミスがあった際に、謝罪の気持ちを込めた音声にしたい場合、実際にその感情を音声に込めることができます。…開発者とユーザーは、何を話すかだけでなく、どのように話すかを本当にコントロールしたいと考えている、というのが私たちの大きな信念です。」

OpenAIの新しい音声テキスト変換モデル「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」は、同社の老朽化した音声文字変換モデル「Whisper」を実質的に置き換えるものです。OpenAIによると、これらの新しいモデルは「多様で高品質な音声データセット」で学習されており、混沌とした環境下でも、アクセントのある多様な音声をより正確に捉えることができるとのことです。

ハリス氏は、幻覚を見る可能性も低いと付け加えた。ウィスパーは会話の中で言葉、時には文章全体を捏造する傾向があり、人種差別的な発言から想像上の医療処置まで、あらゆるものを記録に盛り込んでいた。

「これらのモデルは、その点においてWhisperと比べて大幅に改善されています」とハリス氏は述べた。「モデルの精度を確保することは、信頼できる音声体験を得るために不可欠です。そして、(ここで言う)精度とは、モデルが言葉を正確に聞き取っており、聞き取れなかった詳細を補完していないことを意味します。」

ただし、転記する言語に応じて結果は異なる場合があります。

OpenAIの内部ベンチマークによると、2つの文字起こしモデルのうちより精度の高いgpt-4o-transcribeは、タミル語、テルグ語、マラヤーラム語、カンナダ語などのインド語派およびドラヴィダ語派の言語において、「単語エラー率」が30%(120%中)に迫っています。つまり、これらの言語では、モデルが生成した単語10語のうち3語が人間の文字起こしと異なることになります。

OpenAIの転写結果
OpenAIの転写ベンチマークの結果。画像クレジット: OpenAI

OpenAIは、従来の慣例を破り、新しい文字起こしモデルを公開する予定はありません。同社はこれまで、Whisperの新バージョンをMITライセンスの下で商用利用向けにリリースしてきました。

ハリス氏は、gpt-4o-transcribe と gpt-4o-mini-transcribe は「Whisper よりもはるかに大きい」ため、オープンリリースには適さないと述べました。

「Whisperのように、ノートパソコンでローカルに実行できるようなモデルではありません」と彼は続けた。「オープンソースで何かをリリースする場合には、慎重に検討し、特定のニーズに合わせて磨き上げたモデルを採用することを目指しています。そして、エンドユーザーデバイスはオープンソースモデルにとって最も興味深い事例の一つだと考えています。」

2025 年 3 月 20 日午前 11 時 54 分 (太平洋標準時) に更新され、単語誤り率に関する表現が明確化され 、ベンチマーク結果のグラフがより新しいバージョンに更新されました。

カイル・ウィガーズは2025年6月までTechCrunchのAIエディターを務めていました。VentureBeatやDigital Trendsに加え、Android Police、Android Authority、Droid-Life、XDA-Developersといった様々なガジェットブログにも記事を寄稿しています。音楽療法士のパートナーとマンハッタンに在住。

バイオを見る