ミリオンソングデータセットのサンプル
ロボットにはもっと音楽が必要
最後の目標の達成を阻んできたのは、ほとんどの音楽特性データベースの規模が比較的小さいことでした。
「商業分野の同僚から学術的な音楽情報研究に対して長年受けてきた批判の一つは、私たちが開発するアイデアや技術が、最低でも数十万曲を提供しなければならない実際のサービスには実用的ではないということだ」とエリス氏は最近のブログ投稿で述べている。
エリス氏は、より大規模なデータベースの入手を困難にしている要因は様々だが、中でも「レコード業界が自社データのデジタル共有に対して敵対的な姿勢を取っていることは周知の事実」であり、「大規模な音楽データコレクションを共有しようとするあらゆる取り組みを阻んでいるようだ」と付け加えた。そしてもちろん、そのようなコレクションの費用は常に研究者の足を引っ張ってきた。
しかし、メガサイズのデータセットの必要性はますます明らかになっています。これは、小規模なデータセットでは現れないが、より大規模なアプリケーションではしばしば現れるアルゴリズムの問題を明らかにするのに役立ちます。また、単一のオープンデータセットがあれば、多くの研究者がそれぞれの結果を比較できるようになります。
106曲データベースは朗報です。Echo Nestは、BBC Music Showcase、iTunesをスキャンするPocket Hipster、SXSW Picks(ユーザーの好みに基づいてSXSWで観るべきバンドを推薦するアプリケーション)、その他160以上のアプリなど、様々な音楽サービス向けのアプリケーションを開発しています。
「これにより、MIRの研究者に十分なデータが提供されるだけでなく、学術研究と商業開発のつながりが強化されることを期待しています」とエコー・ネストはデータセットに関する投稿で述べている。
データとコードの取得
既に述べたように、Million Song Datasetは一般公開されていますが、300GBという大容量であることにご注意ください。ダウンロードするのは音声ではなく、100万曲の楽曲から抽出された特徴量をデータベーステーブル形式でまとめたものです。プロジェクトをテストするには、Lab ROSAが提供するコードを使用して7digitalからサンプル音源を取得できます。
そこで、まずはそのデータ全体のうち、約 10,000 曲を「ざっと試聴」してみることを Lab ROSA は提案しています。
「標準化され、入手しやすく、学術界と産業界の両方に関連するデータでアイデアやアルゴリズムを試したい研究者にとって、ミリオンソングデータセットが自然な選択肢となることを私たちは願っています」とエリス氏のブログ投稿は締めくくっている。
「しかし、これらすべてが実現するには、多くの人がデータを使い始める必要があります。」