はじめに
みなさんはアノテーションをしたことがありますか。アノテーションとは「注釈」を意味し、画像・動画・音声・テキストなど様々なデータにタグ情報を付与していく作業工程です。
高精度のAIモデルを作るためには、学習に必要なアノテーションデータの品質を高めなければなりませんが、データを活用した品質向上へのアプローチ法を考えましたのでご紹介します。
アノテーションデータの分布分析
アノテーションデータに付与されているタグ情報を、ヒストグラムや箱ひげ図を用いてデータの分布形状を視覚的に分析します。
例えば、画像の人に対して身長や年齢のタグ情報を付与していった場合、身長をヒストグラムの分布で見ると成人であれば、おおよそ決まった身長の幅内に収まることが視覚的にわかると思います。
その中で仮に50センチのタグ情報が分布から見られれば、アノテーション工程にて身長タグの入力が誤っている可能性が考えられます。
このように、アノテーションデータに付与されているタグを分布分析すると、タグの誤りを効率的に検出することが可能です。
アノテーションデータのエラーパターン分析
特定のタグに対して頻繁に誤りが検出されている場合は、原因を追究する必要があります。
原因を追究した結果、画像に映る環境が「夜」「逆光」「雨」などの悪環境であれば、逆光の反射や夜で暗く正確にタグ付与できない場合の判断方法や、タグ付与ルールの見直しに繋げることができます。
これにより、アノテーション作業者が独自の判断でタグ付与するリスクを避けることができます。
今回は2つの品質向上に向けたアプローチを挙げましたが、他にも考えうる手段はたくさんあると思います。アノテーションデータは数が多く、ひとつひとつ品質チェックしていくとたくさんのコストが必要になるため、効率的なアプローチを考えていきましょう。

