Docugamiの新しい文書理解モデルがNASAのアーカイブで実用化

Docugamiの新しい文書理解モデルがNASAのアーカイブで実用化

最近はデータに関する話題が多すぎて、世の中の多くのものがドキュメントで動いていることを忘れてしまいがちです。ドキュメントとは、多種多様なファイルやフォーマットが入り混じった、まさに動物園のような存在です。膨大な価値を秘めているにもかかわらず、クリーンで構造化されたデータベースという新しい時代とは互換性がありません。Docugamiは、あらゆるドキュメントセットを直感的に理解し、その内容をインテリジェントにインデックス化するシステムで、この状況を変えようとしています。NASAはすでにこのシステムを採用しています。

Docugami の製品が計画通りに機能すれば、誰でも長年にわたって蓄積された大量の文書を、ほぼ瞬時に、実際に人々に役立つデータに変換できるようになります。

なぜなら、どんなビジネスでも、最終的には大量の文書が生み出されるからです。法務関連の契約書や概要、不動産関連の賃貸契約書や合意書、マーケティング関連の提案書やリリース、医療カルテなどなど。Word文書、PDF、Word文書からエクスポートしたPDFのスキャンなど、形式も様々です。

過去10年間、この問題を収拾しようとする取り組みは行われてきましたが、その動きは主に組織的な側面にありました。つまり、すべての文書を一箇所にまとめ、共有し、共同で編集するといった取り組みです。文書そのものの理解は、それを扱う人々にほぼ委ねられてきました。それには理由があります。文書を理解するのは難しいからです。

ハギング・フェイスが自然言語処理ライブラリのために4000万ドルを調達

賃貸契約書を考えてみましょう。人間は、借主の名前がジル・ジャクソンだとすれば、後から出てくる「借主」もその人を指すことを理解します。さらに、他の何百もの契約書においても、それらの文書に登場する借主は、文書の文脈上は同じ種類の人物、あるいは概念ではあるものの、実際の人物と同一ではないことを理解しています。これらは、機械学習や自然言語理解システムにとって、理解し適用するのが驚くほど難しい概念です。しかし、もしこれらを習得できれば、世界中に埋もれた何百万もの文書から膨大な量の有用な情報を抽出できる可能性があります。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

.docxはどうですか?

Docugamiの創設者ジャン・パオリ氏は、この問題を根本から解決したと述べています。これは大胆な主張ではありますが、それを信憑性のある形で主張できる数少ない人物の一人です。パオリ氏は数十年にわたりマイクロソフトの重要人物として活躍し、XML形式の作成にも大きく貢献しました。.docxや.xlsxのように、拡張子がxで終わるファイル、ご存知ですか?これらのファイルの少なくとも一部は、パオリ氏のおかげです。

「データと文書は同じものではありません」と彼は言った。「人間が理解できるものは文書と呼ばれ、コンピュータが理解できるものはデータと呼ばれます。なぜこの二つは同じではないのでしょうか?そこで、(マイクロソフトでの)私の最初の仕事は、文書をデータとして表現できるフォーマットを作ることでした。業界の友人たちとXMLを作成し、ビルがそれを受け入れたのです」(そう、あのビルです)。

これらのフォーマットは広く普及しましたが、20年経った今でも、業界のデジタル化が進むにつれて規模は拡大し、同じ問題が依然として残っています。しかし、パオリにとって解決策は同じです。XMLの核心は、文書をウェブページのように構造化すべきだという考え方でした。つまり、ボックスの中にボックスがあり、それぞれがメタデータによって明確に定義されている、コンピューターにとってより理解しやすい階層モデルです。

ある文書が別の文書の一部に対応する様子を示すイラスト。
画像クレジット: Docugami

「数年前、AIに夢中になって、文書をデータに変換するというアイデアを思いつきました。階層モデルをナビゲートするアルゴリズムが必要だったのですが、必要なアルゴリズムは存在しないと言われました」と彼は説明した。「XMLモデルは、すべての要素が別の要素の中にあり、それぞれが異なる名前でデータを表すのですが、これは今日のAIモデルとは結びついていません。これは事実です。AIの人々がすぐに飛びついてくれることを期待していましたが、そうはなりませんでした。」(「別のことで忙しかったんです」と彼は言い訳するように付け加えた。)

この新しいコンピューティングモデルとの互換性の欠如は驚くべきことではありません。あらゆる新興技術には一定の前提と限界があり、AIは音声理解やコンピュータービジョンといった、同様に重要な他のいくつかの分野に注力してきました。そこで採用されているアプローチは、文書を体系的に理解するというニーズに合致していません。

「多くの人は書類を猫のようなものだと考えています。しかし、AIに目や尻尾を探すように訓練しても、書類は猫のようなものではありません」と彼は言いました。

当たり前のように聞こえるかもしれませんが、これは現実の限界です。セグメンテーション、シーン理解、マルチモーダルコンテキストといった高度なAI手法は、猫だけでなく犬、車種、表情、場所などを検出する超高度な猫検出のようなものです。文書は互いにあまりにも異なっているか、あるいは他の点であまりにも類似しているため、これらのアプローチでは大まかに分類する以上のことは不可能です。

言語理解に関しては、ある程度は優れているものの、パオリ氏が求めていた方法には達していない。「彼らは英語レベルで作業しているようなものです」と彼は言う。「彼らはテキストを見ても、それを元の文書から切り離して考えてしまいます。私はNLP担当者を歓迎します。私のチームの半分はNLP担当者ですが、NLP担当者はビジネスプロセスについて考えません。彼らをXML担当者、つまりコンピュータービジョンを理解している担当者と組み合わせる必要があります。そうすることで、文書を異なるレベルで見ることができるようになるのです。」

Docugamiの活用

デジタル文書を操作している人物を示すイラスト。
画像クレジット: Docugami

パオリ氏の目標は、既存のツール(光学式文字認識などの成熟したプリミティブを超えるもの)を適応させるだけでは達成できなかったため、同氏は独自の AI ラボを立ち上げ、そこで多分野にわたるチームが約 2 年間にわたって改良を重ねてきました。

「私たちはステルスモードで自己資金でコアサイエンスに取り組み、特許庁に多くの特許を申請しました」と彼は語った。「その後、ベンチャーキャピタルに相談に行き、SignalFireが1000万ドルのシードラウンドをリードすることを申し出てくれました。」

このラウンドの取材ではDocugamiの実際の使用感についてはあまり触れられていませんでしたが、Paoli氏がライブドキュメントを使ってプラットフォームの使い方を説明してくれました。私自身はアクセスを許可されておらず、Docugami側も統合とUIの開発に取り組んでいるとのことでスクリーンショットや動画は提供してくれませんでした。そのため、ご自身で想像するしかありませんが… エンタープライズSaaSサービスをほぼ想像できるなら、90%は想像がつくでしょう。

ユーザーは、数十から数百、数千まで、任意の数の文書をDocugamiにアップロードします。これらの文書は、スキャンされたPDF、Wordファイル、その他の形式を問わず、機械理解ワークフローに入力され、文書をコンテンツ固有のXML風の階層構造に解析します。

「例えば500件の文書があるとします。私たちはそれを文書セットに分類しようとします。30件は同じ見た目で、20件も同じ見た目で、残りの5件も一緒です。文書の見た目、内容、想定される用途など、様々なヒントを組み合わせてグループ分けします」とパオリ氏は述べた。他のサービスなら賃貸契約書と秘密保持契約書の違いを識別できるかもしれないが、文書は多種多様すぎるため、事前に学習済みのカテゴリに当てはめてうまくいくとは期待できない。すべての文書セットはそれぞれ独自のものである可能性があるため、Docugamiはたとえ1つの文書セットであっても、毎回新たに学習を行う。「一度グループ化すると、その文書セットの全体的な構造と階層構造を理解できます。なぜなら、文書はまとめてこそ有用になるからです。

ドキュメントがレポートとスプレッドシートに変換される様子を示すイラスト。
画像クレジット: Docugami

これは、単にヘッダーテキストを拾ってインデックスを作成したり、単語検索を可能にしたりするだけではありません。文書内のデータ、例えば誰が誰にいくら、いつ、どのような条件で支払っているかといった情報はすべて構造化され、類似文書の文脈の中で編集可能になります。(推測した内容を再確認するために、少し入力を求められます。)

少し想像しにくいかもしれませんが、会社の現在進行中の融資に関するレポートを作成したいとしましょう。サンプル文書の中で、重要な情報をハイライトするだけです。文字通り、「Jane Roe」「$20,000」「5年」といった項目をクリックするだけです。そして、関連する情報を抽出したい他の文書を選択します。数秒後には、名前、金額、日付など、必要な情報が整理されたスプレッドシートが、一連の文書から作成されます。

もちろん、このデータはすべて移植可能であることも想定されています。ビジネスでよく使用されるさまざまなパイプやサービスとの統合が計画されており、自動レポート、特定の条件に達した場合のアラート、テンプレートと標準ドキュメントの自動作成が可能になります(プリンシパルの場所に下線が付いた古いものを保持する必要がなくなります)。

コード不要、ワークフロー、RPAが自動化の瞬間に並ぶ

覚えておいてください。これはすべて、アップロードしてから30分後に実行されます。ラベル付けや前処理、クリーニングは必要ありません。AIは、賃貸契約書の形式について、先入観やフォーマットに基づいて作業しているわけではありません。アップロードされた実際の文書から、必要な情報をすべて学習しています。構造、名前や日付などの項目が互いにどのように関連しているかなどです。また、このツールは業種を問わず利用でき、誰でも数分で理解できるインターフェースを備えています。医療分野のデータ入力でも、建設契約管理でも、このツールはきっと役立つはずです。

ドキュメントの取り込みと新規作成を行うWebインターフェースは主要なツールの一つであり、もう1つのツールはWord内にあります。Docugamiは、現在開いているすべてのドキュメントの種類を完全に認識するアシスタントのような役割を果たし、新規ドキュメントの作成、標準情報の記入、規制への準拠などをサポートします。

まあ、法務文書の処理は、世界で最もエキサイティングな機械学習の応用分野とは言えません。しかし、もしこれが大きな問題だと思わなければ、私は(そもそも、これほど長く書くこと自体も)こんなことを書いていなかったでしょう。こうした文書の種類に対する深い理解は、標準的な文書の種類(警察や医療報告書など)を扱う既存の業界ではあちこちで見られますが、カヤックレンタルサービス向けに誰かが特注のモデルをトレーニングしてくれるまで待つのも一興でしょう。しかし、中小企業も大企業と同様に文書に秘められた価値を秘めており、データサイエンティストのチームを雇う余裕はありません。そして、大企業でさえ、すべてを手作業で行うことはできません。

NASAの宝庫

画像クレジット: NASA

この問題は極めて難しいのに、人間にとっては些細なことに思える。あなたや私なら、似たような文書20件と名前と金額のリストを簡単にざっと確認できるだろう。おそらく、Docugamiがそれらをクロールして学習する時間よりも短いかもしれない。

しかし、AIは結局のところ、人間の能力を模倣し、それを超越することを目的としており、アカウントマネージャーが20件の契約について月次レポートを作成することと、1,000件の契約について日次レポートを作成することは全く別の話です。しかし、Docugamiは後者と前者を同じように簡単にこなします。だからこそ、Docugamiは、この種の業務のスケーリングが不可欠なエンタープライズシステムと、クリーンなデータと洞察を導き出したいと考えている大量の文書に埋もれているNASAの両方に適合するのです。

NASAに豊富に蓄積されているものがあるとすれば、それは文書です。設立当初から保存状態の良いアーカイブは数多くあり、重要な資料の多くは様々な方法で閲覧可能です。私はNASAが誇る歴史的文書のコレクションをじっくりと眺めながら、楽しい時間を何時間も過ごしました。

しかし、NASAはアポロ11号に関する新たな知見を求めているわけではない。過去および現在にわたる数多くのプログラム、公募、助成金プログラム、予算、そしてもちろんエンジニアリングプロジェクトを通じて、NASAは膨大な量の文書を生み出している。結局のところ、NASAは連邦政府の官僚機構の一部なのである。そして、何十年にもわたって文書が分散している大規模組織と同様に、NASAの文書の蓄積は未開拓の可能性を秘めている。

専門家の意見、研究の先行研究、エンジニアリングソリューション、そしてその他多くの重要な情報が、基本的な単語マッチングで検索できるものの、それ以外は構造化されていないファイルに保管されています。JPLのスタッフがノズル設計の進化について考え、数分以内にそのトピックに関する完全かつ最新の文書リストを種類、日付、著者、ステータス別に整理して作成できたら、どれほど便利でしょうか。NIACの助成金受給者に先行技術情報を提供する必要がある特許アドバイザーはどうでしょうか。特定のキーワードで検索するよりも、より具体的に過去の特許や出願を検索できるべきではないでしょうか。

30億ドル規模のSBIRプログラム「アメリカのシードファンド」にアクセスする方法

昨年夏に交付されたNASA SBIR助成金は、ジョンソン宇宙センターから特定の種類の文書をすべて収集するといった特定の作業のためのものではありません。こうした助成金の多くと同様に、これは探索的または調査的な契約であり、DocugamiはNASAの科学者と協力して、この技術を彼らのアーカイブに適用する最適な方法を模索しています。(最適な活用方法の一つは、SBIRやその他の中小企業向け資金提供プログラム自体への活用かもしれません。)

NSFとの別のSBIR助成金は、NASAのチームが重複情報を含む大量の異なる種類の文書をより適切に整理する方法を検討しているのに対し、NSFでは「スモールデータ」をより適切に識別することを目指しているという点で異なります。「私たちは小さなこと、小さな詳細に注目しています」とパオリ氏は言います。「例えば、名前があったとしたら、それは貸し手なのか借り手なのか?医師なのか患者の名前なのか?患者の記録を読むとペニシリンについて言及されていますが、それは処方されているのか、それとも禁止されているのか?アレルギーという項目と処方箋という項目があれば、私たちはそれらを関連付けることができます。」

「フランス人だからかな」

SBIR 補助金に関連する予算はかなり少なく、彼の会社がそれでは到底生き残れないことを私が指摘すると、彼は笑いました。

「ああ、私たちは助成金で運営しているわけではありません!これは私たちの仕事ではありません。私にとって、これは世界最高の研究室を持つ科学者たちと協力する方法なのです」と彼は言い、今後さらに多くの助成金プロジェクトが控えていることを指摘しました。「私にとって科学は燃料です。ビジネスモデルは非常にシンプルで、DocusignやDropboxのように、サブスクリプション型のサービスです。」

同社は現在、いくつかの統合パートナーやテスターとの連携を確立し、本格的な事業展開を開始したばかりです。しかし、今後1年間でプライベートベータ版を拡大し、最終的には一般公開する予定です。ただし、具体的な時期はまだ発表されていません。

「私たちはまだ若い会社です。1年前は5、6人程度でしたが、今ではシードラウンドで1000万ドルの資金調達を達成し、大成功を収めています」とパオリ氏は語った。しかし彼は、この事業が単に収益性が高いだけでなく、企業の働き方に大きな変化をもたらすと確信している。

「みんな文書が好きなんです。私がフランス人だからかもしれませんが」と彼は言った。「でも、テキストや本、書くことは重要だと思います。人間はそういう風に働くんです。人間は機械の思考を助け、機械は人間の思考を助けられると本当に信じています。」

2021年に人工知能がどのように活用されるか

Noogata、ノーコード企業向けAIプラットフォーム向けに1,200万ドルのシードラウンドを調達