記事検索

検索ワードを入力してください。
Sky Tech Blog
アノテーション品質向上に​向けた​データを​用いた​アプローチ

アノテーション品質向上に​向けた​データを​用いた​アプローチ

アノテーションデータの品質向上に向けたデータを用いたアプローチについて説明しています。データの分布分析とエラーパターン分析を通じて、タグ付与の誤りを効率的に検出し、品質を高める方法を紹介します。

はじめに

みなさんはアノテーションをしたことがありますか。アノテーションとは「注釈」を意味し、画像・動画・音声・テキストなど様々なデータにタグ情報を付与していく作業工程です。

高精度のAIモデルを作るためには、学習に必要なアノテーションデータの品質を高めなければなりませんが、データを活用した品質向上へのアプローチ法を考えましたのでご紹介します。

アノテーションデータの​分布分析

アノテーションデータに付与されているタグ情報を、ヒストグラムや箱ひげ図を用いてデータの分布形状を視覚的に分析します。

例えば、画像の人に対して身長や年齢のタグ情報を付与していった場合、身長をヒストグラムの分布で見ると成人であれば、おおよそ決まった身長の幅内に収まることが視覚的にわかると思います。

その中で仮に50センチのタグ情報が分布から見られれば、アノテーション工程にて身長タグの入力が誤っている可能性が考えられます。

このように、アノテーションデータに付与されているタグを分布分析すると、タグの誤りを効率的に検出することが可能です。

アノテーションデータの​エラーパターン分析

特定のタグに対して頻繁に誤りが検出されている場合は、原因を追究する必要があります。

原因を追究した結果、画像に映る環境が「夜」「逆光」「雨」などの悪環境であれば、逆光の反射や夜で暗く正確にタグ付与できない場合の判断方法や、タグ付与ルールの見直しに繋げることができます。

これにより、アノテーション作業者が独自の判断でタグ付与するリスクを避けることができます。

今回は2つの品質向上に向けたアプローチを挙げましたが、他にも考えうる手段はたくさんあると思います。アノテーションデータは数が多く、ひとつひとつ品質チェックしていくとたくさんのコストが必要になるため、効率的なアプローチを考えていきましょう。


\シェアをお願いします!/
  • X
  • Facebook
  • LINE
キャリア採用募集中!

入社後にスキルアップを目指す若手の方も、ご自身の経験を幅広いフィールドで生かしたいベテランの方も、お一人おひとりの経験に応じたキャリア採用を行っています。

Sky株式会社のソフトウェア開発や製品、採用に関するお問い合わせについては、下記のリンクをご確認ください。
お問い合わせ
ホーム