フランスの大規模言語モデル(LLM)開発会社Mistralは木曜日、複雑なPDF文書を扱う開発者向けに新しいAPIをリリースしました。Mistral OCRは、あらゆるPDFをテキストファイルに変換し、AIモデルによる読み込みを容易にする光学文字認識(OCR)APIです。
OpenAIのChatGPTのような人気のGenAIツールを支えるLLMは、特に生のテキスト処理に適しています。そのため、独自のAIワークフローを構築したい企業は、データをAI処理に再利用できるように、クリーンな形式でデータを保存し、インデックス付けすることが非常に重要になっていることを認識しています。
他の多くのOCR APIとは異なり、Mistral OCRはマルチモーダルAPIです。つまり、テキストブロックにイラストや写真が混在している場合でも検出できます。OCR APIはこれらのグラフィック要素の周囲にバウンディングボックスを作成し、出力に含めます。
Mistral OCR は、単に大量のテキストを出力するだけではありません。出力は、開発者がプレーン テキスト ファイルにリンク、ヘッダー、その他の書式設定要素を追加するために使用する書式設定構文である Markdown でフォーマットされます。
LLMは学習データセットにMarkdownを多用しています。同様に、MistralのLe ChatやOpenAIのChatGPTなどのAIアシスタントを使用する場合、箇条書きの作成、リンクの追加、要素の太字化などのためにMarkdownを生成することがよくあります。アシスタントアプリは、Markdown出力をシームレスにリッチテキスト出力に変換します。そのため、近年GenAIが急成長を遂げるにつれ、生のテキスト、そしてMarkdownの重要性が高まっています。
「長年にわたり、組織は膨大な文書を蓄積してきました。その多くはPDFやスライド形式で、LLM、特にRAGシステムではアクセスできません。Mistral OCRを活用することで、お客様はリッチで複雑な文書をあらゆる言語で読みやすいコンテンツに変換できるようになります」と、Mistralの共同創業者兼最高科学責任者であるギヨーム・ランプル氏は述べています。
「これは、膨大な社内文書へのアクセスを簡素化する必要がある企業でAIアシスタントが広く導入されるための重要な一歩です」と彼は付け加えた。
テッククランチイベント
サンフランシスコ | 2025年10月27日~29日
Mistral OCRは、Mistral独自のAPIプラットフォームまたはクラウドパートナー(AWS、Azure、Google Cloud Vertexなど)を通じてご利用いただけます。また、機密データやセンシティブデータを扱う企業向けに、Mistralはオンプレミス展開も提供しています。
パリに拠点を置くAI企業Mistralによると、Mistral OCRはGoogle、Microsoft、OpenAIのAPIよりも優れたパフォーマンスを発揮します。同社は、数式(LaTeX形式)、高度なレイアウト、表を含む複雑な文書でOCRモデルをテストしました。英語以外の言語の文書でも優れたパフォーマンスを発揮するとされています。

Mistral OCRは1つの機能のみを実行するため、既存のOCRよりも高速であると同社は考えています。OCR機能(その他多くの機能)を備えたGPT-4oのようなマルチモーダルLLMと比較すれば、これは驚くべきことではありません。
ミストラルは、自社のAIアシスタント「Le Chat」にもミストラルOCRを採用しています。ユーザーがPDFファイルをアップロードすると、同社はバックグラウンドでミストラルOCRを使用し、テキスト処理の前に文書の内容を理解します。
企業や開発者は、Mistral OCRをRAG(Retrieval-Augmented Generation)システムと組み合わせて、マルチモーダル文書をLLMの入力として利用する可能性が高いでしょう。そして、その潜在的なユースケースは数多くあります。例えば、法律事務所が膨大な量の文書を迅速に処理するためにMistral OCRを活用することが考えられます。
RAG は、データを取得し、それを生成 AI モデルのコンテキストとして使用するために使用される手法です。
ロマン・ディレットは2025年4月までTechCrunchのシニアレポーターを務めていました。テクノロジーとテクノロジー系スタートアップに関する3,500本以上の記事を執筆し、ヨーロッパのテクノロジーシーンで影響力のある人物としての地位を確立しています。スタートアップ、AI、フィンテック、プライバシー、セキュリティ、ブロックチェーン、モバイル、ソーシャルメディア、メディアにおいて深い知識を持っています。TechCrunchで13年の経験を持つ彼は、シリコンバレーとテクノロジー業界を熱心に取材する同誌のお馴染みの顔です。彼のキャリアは21歳のときからTechCrunchでスタートしています。パリを拠点とする彼は、テクノロジー業界の多くの人々から、街で最も知識豊富なテクノロジージャーナリストとみなされています。ロマンは、誰よりも早く重要なスタートアップを見つけるのを好みます。Revolut、Alan、N26を取材した最初の人物でもあります。Apple、Microsoft、Snapによる大型買収に関するスクープ記事も執筆しています。執筆活動をしていない時は、開発者としても活動しており、テクノロジーの背後にある仕組みを理解しています。彼は過去50年間のコンピュータ業界に関する深い歴史的知識も有しています。イノベーションと社会構造への影響を結びつける方法を熟知しています。ロマンは、起業家精神を専門とするフランスの名門ビジネススクール、エムリヨン・ビジネススクールを卒業しています。テクノロジー分野で女性の教育とエンパワーメントを推進するStartHerや、テクノロジーで難民のエンパワーメントを支援するTechfugeesなど、複数の非営利団体を支援してきました。
バイオを見る