Visual Layer は、企業が AI モデルを構築するために必要な膨大なビジュアルデータセットを管理するのを支援し、700 万ドルを調達しました。

Visual Layer は、企業が AI モデルを構築するために必要な膨大なビジュアルデータセットを管理するのを支援し、700 万ドルを調達しました。

コンピュータービジョンのユースケース向け機械学習モデルのトレーニングには、膨大な量の画像が必要です。多くの場合、これらの画像はラベル付けが間違っていたり、破損していたり​​、重複していたり​​するため、モデルのパフォーマンスが標準以下になります。しかし、多くのデータセットに数百万枚の画像が含まれる状況では、これらの問題を検出することは事実上不可能です。テルアビブに拠点を置くスタートアップ企業Visual Layerは、データサイエンティストや機械学習エンジニアがこれらの問題をモデルに影響を与える前に発見できるようにすることを目指しており、本日、MadronaとInsight Partnersが主導する700万ドルのシードラウンドで資金調達を完了したことを発表しました。

同社は、高価なGPUに頼ることなく、数億枚の画像を分析し、データセット内の潜在的な問題を自動的に検出できるシステムを構築しました。Visual Layerの技術スタックの中核を成すのは、オープンソースのfastdubプロジェクトです。同社は、Danny Bickson氏(CEO)とAmir Alush氏(CTO)によって共同設立されました。彼らは、Appleなどの企業での経験に基づいてfastdubを開発しました。Bickson氏は、AppleがAIスタートアップ企業Turi(同社が共同設立者)を買収した後、Appleでシニアデータサイエンスマネージャーを務めていました。Alush氏は以前、Brodmann17の共同設立者でした。最近バージョン1.0がリリースされたFastdupは、エンジニアが画像データセット内の潜在的な問題を検出し、それらをクラスタ化して視覚化するのに役立ちます。

画像クレジット: Visual Layer

研究チーム(共同創設者にはTuriの元CEO兼共同創設者であるカルロス・ゲストリン氏も含まれる)は、人気の高いImageNet-21K事前学習データセットの1400万枚強の画像の中に、100万組以上の重複画像が含まれていることを発見した。また、ほとんどのデータセットには、壊れた画像や、ラベルが大きく異なる画像と非常によく似ている画像も含まれている。さらに、数千枚の画像が単にラベル付けが誤っており、誤ったモデルの学習に使用されているケースも多い(顔検出モデルの学習に靴の画像が使用されているケースを想像してみてほしい)。

「世界中の企業や組織はデータの爆発的な増加に直面しており、中でもビジュアルデータは管理が最も複雑で困難なデータタイプの一つです。小売業から製造業、自動運転車など、幅広い業界のお客様に有意義なサービスを提供するには、こうしたコンテンツを理解し、キュレーションし、管理することが極めて重要です」とビクソン氏は述べています。「企業は膨大な量のデータに苦戦しており、データがどこにあるのか、そしてその中身が何なのか、全く把握できていないケースが少なくありません。インフラも共通基準もないため、独自にツールを開発しているのです。」

当然のことながら、Visual Layer は基本的に fastdub をサービスとして提供しています (その上に追加のエンタープライズ機能が重ねられています)。

画像クレジット: Visual Layer

同社の初期のユーザーには、2億点の製品を掲載した画像ギャラリーの品質向上にfastdupを使用したインドのソーシャルコマースプラットフォームMeeshoをはじめ、John Deere、Honeywell、Winnow、Nuvilabなどが含まれている。

「データセットが大きいほどモデルは優れているという考え方に反して、画像や動画に関しては、基盤となるデータセットが乱雑だと、最適なモデルが生成できず、エラーが発生しやすい結果になる可能性があります。大規模AIモデルの現実において、私たちはデータの問題を解決しなければなりません。fastdupのリリース直後に見られた興奮は、お客様もこの考えに同意していることを明確に示しています。Visual Layerチームおよびfastdupコミュニティと協力し、AIアプリケーションスタックの新たな基盤コンポーネントを構築できることを大変嬉しく思います」と、MadronaのパートナーであるJon Turow氏は述べています。

テッククランチイベント

サンフランシスコ | 2025年10月27日~29日

フレデリックは2012年から2025年までTechCrunchに在籍していました。また、SiliconFilterを設立し、ReadWriteWeb(現ReadWrite)にも寄稿しています。フレデリックは、エンタープライズ、クラウド、開発者ツール、Google、Microsoft、ガジェット、交通機関など、興味のあるあらゆる分野をカバーしています。

バイオを見る