はじめに
Superb Curateは、機械学習チームがトレーニングデータセットを簡単にキュレートし、よりロバスト(堅牢)で高性能なモデルを構築するために設計された強力なデータキュレーションツールです。Superb Curateの主な機能の1つにAuto-Curate機能があり、トレーニングセットや検証セットに含める最も価値のあるデータを選択することで、機械学習モデルの精度とロバスト性(堅牢性)の向上を支援します。
このブログポストでは、MS COCOデータセット上で、当社のAuto-Curate機能がどのようにロバスト(堅牢)な物体検出モデルの構築に役立つかを説明します。私たちは2つの実験を行い、私たちの機能を使えば、より少ないラベル付きデータと少ないリソースでより高い精度を達成できることを示しました。
MS COCO Dataset
Microsoft Common Objects in Context(MS COCO)データセットは、画像認識と物体検出のベンチマークとして広く使用されています。2014年にリリースされたこのデータセットには、250万以上のオブジェクトインスタンスが描かれた33万以上の画像が含まれており、オブジェクト認識のための最大かつ最も多様なデータセットの1つとなっています。このデータセットには、動物、乗り物、家庭用オブジェクトなど、80のオブジェクトカテゴリが含まれています。各オブジェクトはバウンディングボックスとラベルでアノテーションされており、オブジェクト検出モデルのトレーニングや評価のための貴重なリソースとなっています。アノテーションは、COCO JSONのような異なるフォーマットでも利用可能で、機械学習フレームワークとの統合を容易に行えます。
MS COCOデータセットのユニークな特徴の一つは、複数のオブジェクト、オクルージョン、様々なレベルのスケールと方向を持つ複雑なシーンに焦点を当てていることです。このため、物体検出モデルがうまく機能するのは難しいデータセットであるが、実世界のシナリオをより代表するデータセットでもあります。さらに、このデータセットには、人工的に作成された画像ではなく、自然な環境で撮影された画像が含まれているため、より多様で私たちを取り巻く世界を代表するものとなっています。MS COCOデータセットは、その大きなサイズ、豊富なアノテーション、複雑さにより、コンピュータビジョン研究コミュニティにおける物体検出、セグメンテーション、画像キャプションタスクの標準的なベンチマークとなっています。
検証実験のセットアップ
MS COCOデータセットの実験では、比較のためにいくつかのサブセットを作成しました。具体的には、118,287枚の画像を含むFull Train Setと、トレーニングセットの25%である30,000枚の画像のみを含むCurated Train Setの2つのトレーニングセットを作成しました。また、5,000枚の画像を含むFull Validation Setと、検証セットの40%に相当する2,000枚の画像を含むCurated Validation Setの2つの検証セットを作成しました。
検証に使用された、キュレートされたトレインセットは、フルトレインセットよりも75%小さくなっています。
Curated Train Setの作成における我々のゴールは、我々のアルゴリズムが最も価値のあるデータを選択してトレーニングセットに含めることができるかどうかを確認し、より少ないデータでパフォーマンスの高いモデルをトレーニングできるようにすることでした。これを達成するために、我々のキュレーションアルゴリズムを利用しました。このアルゴリズムは、まばらなエンベッドクラスター、つまり視覚的類似性を共有する画像があまりない小さなクラスターからサンプリングすることで、希少な例をデータセットに含めます。 これにより、我々のキュレーションしたデータセットは、全てのオブジェクトカテゴリからの例を含むバランスの取れたものとなり、モデルの精度と堅牢性を向上させるために最も価値のあるデータを含むことが保証されます。完全な訓練セットとキュレーションされた訓練セットで訓練されたモデルの性能を比較することで、最も価値のあるデータを選択するキュレーションアルゴリズムの有効性を測定することができます。
この検証は、特に大規模なデータセットをキュレートするリソースを持たない中小企業やスタートアップ企業にとって、大きな意義があると確信しています。当社のAuto-Curate機能により、これらの企業はMS COCOデータセットの小さなサブセットを選択し、データセット全体で訓練したモデルと同等のパフォーマンスでモデルを訓練することができます。これは、優れた結果を達成しながら時間と費用を節約できる、費用対効果の高いソリューションです。
検証1:キュレートされたトレインセット vs. フルトレインセット
最初の検証では、それぞれFull Train SetとCurated Train Setを用いて2つのモデルをトレーニングしました。 次にFull Validation Set(完全検証セット)を使ってパフォーマンスを測定しました。
その結果、Curated Train SetはFull Train Setと比較してわずか0.3%のパフォーマンス低下しかないモデルを生成することがわかりました。ほぼ全てのオブジェクトクラスにおいて、F-1スコアの変化は0.05%未満と最小でした。トレーニングデータの25%しか使用しなかったにもかかわらず、同様のパフォーマンスを達成したことを考えると、これは素晴らしい結果です。
ヘアードライヤークラスは、実験結果の中で唯一、成績が落ちた異常値でありました。なぜこのような結果になったのかについては、この記事の後半で詳しく説明します。
検証2:キュレートされた訓練セットと、キュレートされた検証セットを含む完全な訓練セットとの比較
検証2では、Curated Validation Setを使用して、Full Train SetとCurated Train Setで学習したモデルの性能を評価することを目的としました。キュレーションされた検証セットを作成するために使用したキュレーション・アルゴリズムは、まばらなエンベッディングクラスタからサンプリングすることで、データセット内のまれな事例を選択しますが、同時に、ラベルが間違っている確率が比較的高いものを避けます。 これは、キュレーションされた検証セットは、各オブジェクトクラスのエッジケースやレアケースをより多く含む可能性が高く、モデルのパフォーマンスをより確実に評価できることを意味します。
なぜこれが重要なのかを理解するために、歩行者を検出する必要がある自律走行車の仮想例を考えてみましょう。なぜこれが重要なのかを理解するために、歩行者を検出する必要がある自律走行車の仮想例を考えてみましょう。歩道を歩く歩行者を主な特徴とする画像のデータセットで訓練されたモデルは、典型的なケースではうまく機能するかもしれません。しかし、そのモデルが、暗い場所で横断歩道を渡っていたり、集団で歩いていたりするような、通常とは異なる場所にいる歩行者のまれなケースについてトレーニングされていないとします。その場合、このようなエッジケースで歩行者を認識できない可能性があります。したがって、モデルがロバスト(堅牢)であり、すべてのシナリオで歩行者を正確に識別できることを保証するためには、これらのエッジケースを含むキュレートされた検証セットでモデルの性能を評価することが不可欠です。
検証2では、Curated Validation Setで評価した場合、Full Train Setと比較して0.4%の性能向上が見られました。 これは、Auto-Curate機能がトレーニングセットに含める最も価値のあるデータを選択できることを示しています。
このように、より少ない量の十分にキュレートされたデータでモデルをトレーニングしても、完全なデータセットでトレーニングした場合と同等の結果を得ることができます。さらに、より多くのレアケースを含むキュレーションされた検証セットを使用することで、より正確なモデル性能の評価が可能になります。
Curated Train Setを使用した場合のF-1スコアの変化率のヒストグラム(Curated Validation Setで評価)
検証1で観察されたのと同様に、ヘア ドライヤーのオブジェクト・クラスは、結果において異常値として際立っていました。これは、ヘアドライヤーがMS COCOデータセットで最も出現頻度の低いオブジェクトクラスであることを考えれば、驚くことではありません。
それでは、なぜヘアドライヤーのクラスが異常値として際立っていたのか、さらに深く掘り下げてみましょう。以下はFullとCuratedの検証セットに含まれるヘアドライヤークラスのインスタンスです。
フル検証セットとキュレーション検証セットに含まれるヘアドライヤークラスのインスタンス
上の例からわかるように、ヘアードライヤークラスの完全な検証セットには、典型的な例と非典型的な例の両方が含まれています。 いくつかの例は、人間がバウンディング・ボックス領域だけからヘアードライヤーを識別するのは難しいにもかかわらず、ヘアードライヤーとラベル付けされている。このような悪い例を検証セットに含めると、モデルの評価に欠陥が生じる可能性があります。
対照的に、我々のAuto-Curateアルゴリズムは、これらの悪いラベルを識別し、検証セットから排除しました。我々のキュレーションアルゴリズムは、レアケースの選択だけでなく、オブジェクトがミスラベルされる可能性などの追加要素も考慮に入れています。このキュレーションされた検証セットにより、特に元のデータセットでミスラベルされる可能性のあるレアケースやエッジケースについて、モデルの性能をより正確に評価することができました。
これは、データ中のノイズ、人為的ミス、ラベリングツールの限界など、様々な理由で誤ったラベリングが起こり得る実世界のシナリオにおいて特に有用である。このような不適当なラベルを取り除き、より正確で代表的な例を評価セットに含めることで、実世界の設定におけるモデルの性能について、より信頼性の高い推定値を得ることができます。
まとめ
MS COCOデータセットの実験では、CurateのAuto-Curate機能を使用することで、最も価値のあるデータをトレーニングセットに選択することができることが実証されました。このアプローチにより、機械学習チームは訓練データのわずか25%を使ってロバスト(堅牢)なモデルを作成することができます。この結果は、データ量よりもデータの質の重要性を強調し、たとえ小さなデータセットであっても、十分にキュレートされたデータによって非常に効果的なモデルを作成できることを示しています。
当社のキュレーション・アルゴリズムを活用することで、チームはまばらなクラスタから希少な例を選択し、誤ったラベル付けデータを回避して、バランスの取れたデータセットを構築することができます。このプロセスにより、最も価値のあるデータがトレーニングセットに含まれるようになり、チームはモデルの精度とロバスト性(堅牢性)を向上させることができます。また、このアプローチはリソースの大幅な節約にもつながります。チームは、より少ないキュレーションされたデータセットで優れたモデル性能を得ることができるため、時間とコストを節約できます。
Curateの詳細と、よりロバストな物体検出モデルの構築に役立つ方法にご興味をお持ちの方は、ぜひ弊社チームまでお問い合わせください!ユーザーフレンドリーなインターフェースと強力な機能を備えたCurateは、機械学習モデルの最適化をお考えの皆様に最適なツールです。