AIの性能は教師データの精度で決まる

・・・これらの答えはとてもシンプルです。
実は教師データの品質が、 一番の重要なファクターになります。
教師データの品質やアノテーションの精度がいかにAIの性能に関わるかをご紹介いたします。
元のデータ画像を正確にアノテーションした場合と不正確にアノテーションした場合とで、
AIの性能にどれだけの影響があるのかという一例をご覧ください。
・・・これらの答えはとてもシンプルです。
実は教師データの品質が、 一番の重要なファクターになります。
教師データの品質やアノテーションの精度がいかにAIの性能に関わるかをご紹介いたします。
元のデータ画像を正確にアノテーションした場合と不正確にアノテーションした場合とで、AIの性能にどれだけの影響があるのかという一例をご覧ください。
元画像

正確なアノテーション画像
↓
正確なアノテーションによるAIの精度
↓
正確なAI検出画像
〇
①橋梁検出空白
②スチール検出
③パイプ検出空
不正確なアノテーション画像
↓
不正確なアノテーションを10%混ぜた際のAI精度
↓
不正確なAI検出画像
✕
①橋梁見逃し空白
②スチール誤検出
③パイプ未検出空

正確なアノテーションの画像では、高い精度で対象物の検出ができています。
一方で、不正確なアノテーションが10%混ざった画像では、
不正確な検出しかできないために正確なアノテーションを行った場合と比べて精度が最大26.3%も低下してしまいます。
正確なアノテーションの画像では、高い精度で対象物の検出ができています。
一方で、不正確なアノテーションが10%混ざった画像では、不正確な検出しかできないために正確なアノテーションを行った場合と比べて精度が最大26.3%も低下してしまいます。
AI開発の課題
AIアルゴリズム改善での精度向上は困難
|
2週間のプロジェクトでAIアルゴリズム改善チームと教師データ改善チームに分けてAI精度検証を実施した結果、教師データ改善チームでは16.9%もの改善が見られた一方で、AIアルゴリズム改善チームでは改善が見られなかった、という研究結果が出ています。
参考:A Chat with Andrew on MLOps : From Model-centric to Data-centric AI
( https://youtu.be/06-AZXmwHjo )
教師データ作成はAI開発フローにおける比重が大きい
|
AI開発と一口にいっても、様々な工程が存在します。この中でも教師データの作成というのは、実に全体の約80%近くの工数を必要とします。ときに数万枚~十数万枚規模の大量データをアノテーションする必要もありますので、教師データの品質を精査することは非常に大変な作業になります。
不正確なアノテーションを含む教師データの例
|
不正確なアノテーションの例としては以下のような、アノテーションミス、レイヤー混合、定義間違いなどが考えられます。このようなアノテーション画像を学習させると、AIの性能に直結し、ケースによっては検出精度が最大26.3%落ちてしまうこともあります。
AI開発の課題
AIアルゴリズム改善での精度向上は困難
|
2週間のプロジェクトでAIアルゴリズム改善チームと教師データ改善チームに分けてAI精度検証を実施した結果、教師データ改善チームでは16.9%もの改善が見られた一方で、AIアルゴリズム改善チームでは改善が見られなかった、という研究結果が出ています。
参考:A Chat with Andrew on MLOps : From Model-centric to Data-centric AI
( https://youtu.be/06-AZXmwHjo )
教師データ作成は
AI開発フローにおける比重が大きい |
AI開発と一口にいっても、様々な工程が存在します。この中でも教師データの作成というのは、実に全体の約80%近くの工数を必要とします。ときに数万枚~十数万枚規模の大量データをアノテーションする必要もありますので、教師データの品質を精査することは非常に大変な作業になります。
不正確なアノテーションを含む
教師データの例 |
不正確なアノテーションの例としては以下のような、アノテーションミス、レイヤー混合、定義間違いなどが考えられます。このようなアノテーション画像を学習させると、AIの性能に直結し、ケースによっては検出精度が最大26.3%落ちてしまうこともあります。
不正確なアノテーションを含む教師データを使用した場合のリスク
|
AIの検出精度が本格的に明らかになるのは、主にモデル評価・パラメータ調整のフローになります。しかし、この時点では教師データのアノテーション工程が既に終わっているため、パラメータ調整での精度向上を図るまたは、精度がどうやっても向上しないためにフローを後戻りして、アノテーション作業のやり直しといったことになります。結果として時間とコストが想定以上にかかるケースが非常に多くあります。不正確なアノテーション作業で作成されたデータセットの影響はプロジェクトの終盤まで続いていくため、AI開発における教師データの作成というのは大変重要な工程となるわけです。
不正確なアノテーションを含む
教師データを使用した場合のリスク |
AIの検出精度が本格的に明らかになるのは、主にモデル評価・パラメータ調整のフローになります。しかし、この時点では教師データのアノテーション工程が既に終わっているため、パラメータ調整での精度向上を図るまたは、精度がどうやっても向上しないためにフローを後戻りして、アノテーション作業のやり直しといったことになります。結果として時間とコストが想定以上にかかるケースが非常に多くあります。不正確なアノテーション作業で作成されたデータセットの影響はプロジェクトの終盤まで続いていくため、AI開発における教師データの作成というのは大変重要な工程となるわけです。

教師データの品質を確実に担保できる体制
AIスペシャリストによるアノテーション設計 |
サイエンスパークではAI開発のスペシャリストによる一貫したアノテーション設計を行っています。それによって通常教師データ作成段階では気付けないその後のAI開発の工程を見据えたアノテーションの設計をすることができます。
アノテーション作業をいかに要件定義に落とし込めるかが、高品質な教師データ作成ひいてはAI開発において重要な要素となります。特に、複雑な画像であればあるほど、正確に細かく要件定義に落とし込むのは難しいです。そこはサイエンスパークのAI開発のスペシャリストが一貫してサポート・設計を行います。
また、アノテーションデータの選定から精査しデータ加工も可能なため、画像処理技術を使用した前処理・後処理を行うことで、効率的なアノテーション作業を実現しています。
AIスペシャリストによるアノテーション設計 |
サイエンスパークではAI開発のスペシャリストによる一貫したアノテーション設計を行っています。それによって通常教師データ作成段階では気付けないその後のAI開発の工程を見据えたアノテーションの設計をすることができます。
アノテーション作業をいかに要件定義に落とし込めるかが、高品質な教師データ作成ひいてはAI開発において重要な要素となります。特に、複雑な画像であればあるほど、正確に細かく要件定義に落とし込むのは難しいです。そこはサイエンスパークのAI開発のスペシャリストが一貫してサポート・設計を行います。
また、アノテーションデータの選定から精査しデータ加工も可能なため、画像処理技術を使用した前処理・後処理を行うことで、効率的なアノテーション作業を実現しています。
サポート事例 |
1.学習時の柔軟性を考慮した提案(学習モデルのアルゴリズム)
同じ形状の物体をまとめて1レイヤーとしてアノテーションをする想定のお客様に対し、学習時の柔軟性を考慮して別々のレイヤーでのアノテーションを提案。結果として、開発後半に学習アルゴリズムを変えて、対象の物体を別々に検出したいという要望が発生したものの、無事に対応することが可能となった。
全て同じレイヤーで作成
➡
別々のレイヤーで作成
1.学習時の柔軟性を考慮した提案(学習モデルのアルゴリズム)
同じ形状の物体をまとめて1レイヤーとしてアノテーションをする想定のお客様に対し、学習時の柔軟性を考慮して別々のレイヤーでのアノテーションを提案。結果として、開発後半に学習アルゴリズムを変えて、対象の物体を別々に検出したいという要望が発生したものの、無事に対応することが可能となった。
全て同じレイヤーで作成
⬇
別々のレイヤーで作成
2.実装時の要求を踏まえた提案(検出時に想定される環境等の考慮)
同じ形状の物体をまとめて1レイヤーとしてアノテーションをする想定のお客様に対し、学習時の柔軟性を考慮して別々のレイヤーでのアノテーションを提案。結果として、開発後半に学習アルゴリズムを変えて、対象の物体を別々に検出したいという要望が発生したものの、無事に対応することが可能となった。
想定した検出状況と
異なるアノテーション
➡
想定した検出状況に
マッチしたアノテーション
2.実装時の要求を踏まえた提案(検出時に想定される環境等の考慮)
同じ形状の物体をまとめて1レイヤーとしてアノテーションをする想定のお客様に対し、学習時の柔軟性を考慮して別々のレイヤーでのアノテーションを提案。結果として、開発後半に学習アルゴリズムを変えて、対象の物体を別々に検出したいという要望が発生したものの、無事に対応することが可能となった。
想定した検出状況と
異なるアノテーション
⬇
想定した検出状況に
マッチしたアノテーション
3.検出率を見据えた教師データ選定基準の提案
動画からフレーム単位で画像を切り出して、対象物が写っている画像のみを対象としてアノテーションをする想定のお客様に対し、最終的な検出率を考慮してアノテーションに使用する画像の選定基準を策定・提案。
結果として、どのクラスの対象物も安定した検出率がある状態で運用することが可能となった。
AIスペシャリストによる品質管理マネジメント |
最終的なアノテーションのチェックもAI開発のスペシャリストがやっています。アノテーションの作業者に依存してしまうマスク範囲や対象物の定義がきちんと統一されているのか、作業者への説明から最終チェックまでをAI開発のスペシャリストが行うことで、シームレスな品質管理を実現しています。
AIスペシャリストによる 品質管理マネジメント |
最終的なアノテーションのチェックもAI開発のスペシャリストがやっています。アノテーションの作業者に依存してしまうマスク範囲や対象物の定義がきちんと統一されているのか、作業者への説明から最終チェックまでをAI開発のスペシャリストが行うことで、シームレスな品質管理を実現しています。
日本人スタッフによる完全国内生産
日本国内での生産体制 |
アノテーション作業というのは大量のデータを処理する必要があるため、人件費の安い国外へ外注に出してそれらを管理する、といったシステムを取る会社が珍しくありません。したがって、どのくらいの下請けまで、お客様の大切なデータが流出しているのかを把握することが大変困難となっています。しかし、サイエンスパークではお客様からお預かりする大切な収集データを国外へ持ち出すことは一切せず、完全国内生産の体制をとっています。
日本人スタッフによる生産体制 |
日本特有の標識やインフラ設備をアノテーションする際の学習コストが低いことはもちろん、要件定義を正確に伝えるためのコミュニケーションコストを抑えられるなど、高品質な教師データを保つマネージメントコストは、日本人スタッフによるアノテーション作業の方が結果的に低く抑えることができます。また、画像処理ソフトに精通しているアノテーション作業のスタッフが多数在籍していますので、AI開発のスペシャリストによって設計された定義に沿ったアノテーションを正確に行うことが可能となり、他社には実現できないような高品質な教師データを担保しています。
自社開発のセキュリティ製品で安心・安全の生産体制 |
サイエンスパークは自社開発セキュリティソフト製品の開発を行っています。
国内でしか扱えないデータを安心安全に管理できるシステムが整っています。
日本国内での生産体制 |
アノテーション作業というのは大量のデータを処理する必要があるため、人件費の安い国外へ外注に出してそれらを管理する、といったシステムを取る会社が珍しくありません。したがって、どのくらいの下請けまで、お客様の大切なデータが流出しているのかを把握することが大変困難となっています。しかし、サイエンスパークではお客様からお預かりする大切な収集データを国外へ持ち出すことは一切せず、完全国内生産の体制をとっています。
日本人スタッフによる生産体制 |
日本特有の標識やインフラ設備をアノテーションする際の学習コストが低いことはもちろん、要件定義を正確に伝えるためのコミュニケーションコストを抑えられるなど、高品質な教師データを保つマネージメントコストは、日本人スタッフによるアノテーション作業の方が結果的に低く抑えることができます。また、画像処理ソフトに精通しているアノテーション作業のスタッフが多数在籍していますので、AI開発のスペシャリストによって設計された定義に沿ったアノテーションを正確に行うことが可能となり、他社には実現できないような高品質な教師データを担保しています。
自社開発のセキュリティ製品で 安心・安全の生産体制 |
サイエンスパークは自社開発セキュリティソフト製品の開発を行っています。
国内でしか扱えないデータを安心安全に管理できるシステムが整っています。
👤A社様 |
教師データの見直しによりAIの精度向上、開発が軌道に。
サイエンスパーク様に依頼する以前に、他の教師データ作成サービスの会社に頼んでおりましたが、AIの精度が思った以上に出ないことで、AI環境の見直しやハイパーパラメーターのチューニング調整など試行錯誤を行っていました。そこでサイエンスパーク様に相談したところ、結果的にはアノテーション精度が想定以上に低いことが原因とわかり、教師データの作成をやり直すことになりました。それによりAIの精度が想定していたレベルの評価に達したことで、 AI開発を軌道に乗せることができました。
|
👤B社様 |
AI開発の経験が浅かったが、要件定義から相談に乗っていただけた。
もともと弊社はAI開発においてそこまで深く精通していないということもあり多くの不明点がありました。教師データを作成する上でもアノテーションの要件を細かく定義することは、全体を見通す技術や知見も必要であり、AI開発全般においてサイエンスパーク様に相談させていただきました。機械学習エンジニアの専門家目線によるご助言をいただけ、アノテーションに関してもきちんと細かく要件定義に落とし込めたことで、教師データ作成を安心して任せることができました。
|
👤C社様 |
完全国内生産・情報漏えい対策が決め手。安心してお任せできた
教師データ作成をオフショアで行っているサービス企業がもともと非常に多かったのですが、弊社では収集データを国外に持ち出すことについて、セキュリティ面などの都合上禁止していたという事情がありました。そういった条件で業者を探していましたところ、サイエンスパーク様をみつけました。決め手となったのは、教師データ作成を完全に国内生産で行っていること、またセキュリティ製品の自社開発を強みにして収集データ自体の漏洩対策も充分に行っている点で、お任せすることにいたしました。
|
STEP 01 |
要件定義
教師データの作成方法・成果物について定義を行います
可能な範囲で教師データ作成に仕様するサンプルデータの準備をお願いします |
STEP 02 |
ご契約
STEP01で作成した要件定義を元にお見積りを作成します
合意したお見積り額にて契約締結を行います |
STEP 03 |
教師データ作成
学習に使用するデータの準備をお願いします
頂いたデータに対して教師データの作成を行います |
STEP 04 |
中間報告
都度進捗報告を行います
その時点で作成済みの教師データをお渡しすることも可能です |
STEP 05 |
納品
作成した教師データの納品を行います
|
STEP 01 |
要件定義
教師データの作成方法・成果物について定義を行います
可能な範囲で教師データ作成に仕様するサンプルデータの準備をお願いします |
STEP 02 |
ご契約
STEP01で作成した要件定義を元にお見積りを作成します
合意したお見積り額にて契約締結を行います |
STEP 03 |
教師データ作成
学習に使用するデータの準備をお願いします
頂いたデータに対して教師データの作成を行います |
STEP 04 |
中間報告
都度進捗報告を行います
その時点で作成済みの教師データをお渡しすることも可能です |
STEP 05 |
納品
作成した教師データの納品を行います
|