「ビッグデータ」の重要性―それが一体何を意味するのかを知るためのガイド

「ビッグデータ」の重要性―それが一体何を意味するのかを知るためのガイド

ビジネスとIT

うっとうしい流行語をありのままに解説したこの番組で、次のディナー パーティを盛り上げましょう。

クレジット: ワーナー・ブラザース

クレジット: ワーナー・ブラザース

もし私たちの思い通りにできたら、世界から完全に抹殺したいバズワードが3つあります。「クラウド」「モノのインターネット」「ビッグデータ」です。どれも複雑な概念を巧みに捉えようとして作られたものですが、どれも見事に失敗しています。「クラウド」は明確な定義のない、まさに「他人のサーバー」といった意味不明な言葉です。「モノのインターネット」はあまりにもひどく、情報量が乏しいため、使用すれば死刑に値するでしょう。そして「ビッグデータ」は、実際には何の意味も持たないようです。

ここでは最後の用語に焦点を当てます。なぜなら、この不透明で馬鹿げたバズワードの背後には、実に興味深い概念があるからです。一見すると、「ビッグデータ」は、例えば膨大な量のデータを保存することと関係があるように思えます。確かにその通りですが、それは全体像の一部に過ぎません。Wikipediaには、この用語について非常に長く、非常に詳細(そして過度に複雑)な解説が掲載されていますが、2時間もかけて読まなくても、バズワードとしてのビッグデータとは、膨大な量のデータを収集・保存し、膨大な計算能力と高度なアルゴリズムを適用することで、大量のデータの中では見えず繋がりもしない傾向を抽出し、点と点を結びつけるプロセス全体を指すことがわかります。

さらに簡単なディナー パーティーの定義は次のとおりです。「ビッグ データ」とは、膨大な情報の中から傾向を見つけるためにコンピューターを使用することを指します。データが多すぎて人間がふるいにかけることができない傾向のことです。

古い概念、新しい言葉?

もちろん、山積みのデータをコンピュータで分析するのは目新しいことではありません。面倒な数字処理は、コンピュータが発明されて以来(そしてそれ以前、「コンピュータ」という言葉が「数字を扱う面倒な作業を行う裏方」を意味していた時代から)、コンピュータの主要な機能でした。「ビッグデータ」という言葉が突如として流行した理由は、様々な企業のマーケティング担当者による「ビッグデータ」ソリューションの販売促進活動によるところもありますが、ハードウェアとソフトウェアの両面におけるデータ処理能力の飛躍的な向上により、実に膨大な量のデータの包括的な分析が可能になったのは、ここ10~15年ほどのことです。

昔ながらのビッグデータ マシン: CRAY-1 スーパーコンピュータ。

昔ながらのビッグデータマシン:CRAY-1スーパーコンピュータ。写真提供:ラマ

ここで言う「ビッグデータ」とは、どの程度の規模のデータなのでしょうか?通常、「ビッグデータ」とは、少なくとも数百ギガバイト規模のデータを、何らかの高度なアルゴリズムを用いてふるいにかけ、通常は2台以上のコンピュータ間で負荷を分散させることを意味します。大企業や科学研究機関は、テラバイトやペタバイト単位、極端な場合には桁違いに大規模なデータセットを扱うこともあります。

説明が長くなりすぎないように、ビッグデータには特に重要な4つの側面があります。そのうち3つについて簡単に触れ、最後に実社会におけるビッグデータの例をいくつか挙げて締めくくりたいと思います。

4本足のスツール

まず第一に、もちろん、ビッグデータの山を構成するデータの実際の収集があります。これはここでは外部的な問題です。例えば、携帯電話事業者であれば、何らかの分散データベースに数億(あるいはそれ以上)の顧客やデバイスの記録を保管しているかもしれません。研究者であれば、数ギガバイトのデータポイントを毎時間生成する実験を行い、それを数日あるいは数週間にわたって追跡しているかもしれません。もちろん、データそのものは重要ですが、どのように入手するかはほとんど重要ではありません。重要なのは、データがあり、それを精査する必要があるということです。

2つ目の要素はデータストレージです。ギガバイト、テラバイト、ペタバイト(あるいはエクサバイト)単位のデータを保管し、必要な時にいつでもランダムにアクセスして、有用な処理を実行できるような方法が必要です。これは、分散ファイルシステム(Glusterなど)を使用して、複数のコンピュータのドライブを単一のボリュームの一部のように扱うことを意味します。Amazon EBSのような外部クラウドストレージを使用することもできますし、予算に余裕があれば、大規模で高価なストレージエリアネットワークを使用することもできます。大量のデータを保持する方法はたくさんありますが、それを放り込むための何らかのバケツが必要です。

次に、すべてのデータを実際に処理するために、いくつかのコンピューターが必要になります。ラックサーバー、レンタルの柔軟なクラウドデバイス、専用アプライアンスなど、何でも構いません。そして、おそらく大量のコンピューティングパワーも必要になるでしょ。アルキメデスの有名なドーリア式の言葉がまさにこれに当てはまります。「私に立つ場所を与えよ。そして、てこで世界全体を動かそう。」 「てこ」を「十分なコンピューティングパワー」に置き換えれば、その意味が分かります。

しかし、そこに4つ目の脚、ソフトウェアがあります。この比喩をもう少し難解に解釈すると、「計算能力」がアルキメデスのてこだとすれば、「その計算能力を使って有用なことを実行できるソフトウェア」こそがアルキメデスの立ち位置です。膨大な計算能力は必須条件ですが、適切なソフトウェアこそがビッグデータ活用の秘訣です。適切なアルゴリズムによって、データセットの検索に1時間かかるのと数秒で済むのとでは、大きな違いが生まれるのです。

Apache Hadoopはオープンソースの「ビッグデータ」フレームワークです。さらに、Hadoopのロゴには象が描かれていて、とても愛らしいです。

Apache Hadoopはオープンソースの「ビッグデータ」フレームワークです。Hadoopのロゴには象が描かれていて、とても愛らしいですね。クレジット:Apache Software Foundation

どこで、何を

「ビッグデータ」の最も分かりやすい例は、この記事を読んでいる皆さんならご存知のGoogle検索です。Google検索は非常に高速かつ信頼性が高く、その裏で何が起こっているのかを考える余裕はほとんどありません。しかし、数ミリ秒で生成される検索結果は、膨大なデータセットを膨大な分散処理能力で処理した結果です。仕組みを極端に単純化すると、Googleはページを直接検索するのではなく、ウェブページに表示される単語や単語の集合のインデックスを保持しており、検索語はこのインデックスに対して適用されます。ページ全体をスキャンするよりも、インデックスで何かを検索する方がはるかに高速です。

しかし、インデックスを生成するには、ページ全体をスキャンする必要があります。GoogleはかつてこのためにMapReduceと呼ばれるフレームワークを使用していました。これは、スキャンを多数のサーバーに分散させ、その結果をインデックスに統合するものです。しかし、Googleはより大規模なデータセットを処理できる高度なアプリケーションを導入したため、MapReduceは既に廃止されています。

Google の巨大なデータセンターの内部。「ビッグデータ」のハードウェア面を写真で見たいなら、これがそれです。

Googleの巨大データセンター内部。「ビッグデータ」のハードウェア面を写真で見たいなら、これだ。クレジット:Wired

Google ではもう使用されていませんが、MapReduce は現在、多くの企業や研究機関で実社会で非常に多く使用されているオープンソースのビッグデータ フレームワークである Apache Hadoop の一部となっています。

ビッグデータの分かりやすい例として、大規模な製造業が挙げられます。ビッグデータとは、干し草の山から針のようなデータを見つけることであり、複雑な製造プロセスの各ステップで膨大な量のデータが生成されることを覚えておいてください。部品を組み立てる巨大な組立ラインがあり、その部品自体にも製造プロセスが関わっている場合、完成した部品の問題を組立工程のエラーまで遡って追跡するのは非常に困難です。非常に多くの変数が複合的に作用するからです。しかし、十分な計算能力と適切なアルゴリズムがあれば、この問題への対処ははるかに容易になります。肉眼(あるいは何百人もの肉眼でさえ)では見えない傾向を視覚化できるのです。

実際、先月ミュンヘンにあるGEの研究センターを訪問した際に、まさにそのことを目の当たりにしました。製造業における分析は、それ自体が大きなビジネスです。例えば、あるメーカーの組立工場である日の湿度の変動によって、ある部品セットが許容範囲からわずかに外れて製造され、それがさらに100工程先の別の部品にも影響を与えた、といったことを突き止めることができれば、膨大な時間と費用を節約できるのです。

数年前、メディアで大きな注目を集めた事例の一つは、Tモバイルがビッグデータを活用して顧客の解約パターンを解明したことです。Tモバイルは、加入者同士のつながり方、つまり誰が誰に電話をかけたかという情報に注目し、各発信者が他の発信者と比較してどの程度の影響力を持っているかを把握しようとしました。その結果、一部の顧客が「伝染性解約」を引き起こす可能性があることに気づきました。これは、1人の解約が他の解約にもつながる現象です。Tモバイルは課金データベース以外のデータも精査し、通話の切断など、顧客の不満を示す「課金対象外」の指標も調べました。そして、これらのデータをすべて統合し、影響力の大きい顧客を積極的に支援することに注力し始めました。例えば、影響力の大きい顧客がサービスの悪い地域に引っ越した際に、フェムトセルを提供することで、その顧客がTモバイルを離れ、Tモバイルのネットワークを乗っ取ってしまうのを防ぐといった取り組みです。

私たちが織りなすウェブ

さあ、誰かがあなたの方を向いて「ARSテクニカルのウェブサイトを読んでいるそうですね。ところで、『ビッグデータ』って一体どういう意味ですか?」と聞いてきたら、自信満々の笑顔でその問いに答えてやり返しましょう!ビッグデータとは、変数を分類し、追跡し、人間にはできないものをつなぎ合わせることです。コンピューターは膨大な量の情報をふるいにかけるのが非常に得意です(もちろん適切なソフトウェアがあれば)。そして、それがビッグデータの核心なのです。

膨大な量のデータといえば、今週はミュンヘンへの旅と、そこで生まれたストーリーに焦点を当てていますが、ビッグデータに関する議論はこれで終わりではありません。このトピックに興味をお持ちの方は、数週間後にショーン・ギャラガーがGEの製造プロセスで生成されるデータをどのように扱っているかを詳しく掘り下げる予定ですので、きっと気に入っていただけると思います。

リスト画像: ワーナーブラザース

リー・ハッチンソンの写真

リーはシニアテクノロジーエディターとして、Ars Technicaのガジェット、カルチャー、IT、ビデオセクションのストーリー展開を統括しています。Ars OpenForumの長年の会員であり、エンタープライズストレージとセキュリティに関する豊富な経験を持ち、ヒューストン在住です。

59件のコメント

  1. 最も読まれている記事の最初の記事のリスト画像:イーロン・マスクは、アップルと携帯電話会社にスターリンクのライバルを選んだことを後悔させようとしている