更新日 2019年11月20日
IoT導入のきっかけ、背景
AIによる画像認識精度の向上は著しく、既に人間の目を超えている。ひとたび認識精度が向上すると、コンピュータが備える計算能力によって、人間の能力を遥かに超える画像認識が可能となる。そのため、目視検査の自動化等、AIによる画像認識の活用が様々な分野で検討されている。
一方で、AIの導入は意外に進んでいない。その理由の一つは、AIの学習に必要な教師データの作成作業が煩雑で手間がかかるためである。例えば、手書き数字認識の教師データは、図-1に示すように、数字一つ一つを撮影した画像に0〜9のラベルを付与して作成する。精度の高い認識を行うためには、このようなデータを大量に作成する必要がある。
そこで、画像を識別する能力・スキルを有する専門家が、現場で検査等の作業を行いながら、撮影した画像にラベルを付与することが可能になれば、教師データ作成の煩雑さや手間を軽減できると考えた。ここで、作業を行いながらラベルの入力を行うためには、両手を使わないハンズフリー化が必要である。そのため、当社が既に提供している、音声ハイブリッド入力現場支援システム「Voin2Field」を活用し、音声コマンドで画像の撮影からラベルの入力までを実現した。
IoT事例の概要
サービス名等、関連URL、主な導入企業名
製品名:音声ハイブリッド入力現場支援システム+αi
URL: https://www.tmc.co.jp/service/voin2ai
主な導入企業:
P社(プラスチック素材製造会社) Voin2Field+αi
B社(タイヤメーカ) JR(鉄道会社工事部門) Voin2Field (*1)
T社(原子力発電所) T社(変圧器製造) Voin2 (*2)
(*1) : AI対応機能を持たない音声ハイブリッド入力現場支援システム
(*2):Voin2Fieldの前に提供した音声入力現場支援システム
サービスやビジネスモデルの概要
先ず、本製品の基盤となる、Voin2Fieldについて説明する。Voin2Fieldは、主に工場の荷受や検査工程で発生するデータ入力を、音声による指示と音声入力により、現場作業の手を止めることなく行うシステムである。例えば、製品検査の際に、指示書を持っているために両手が塞がっている状態でも図-2のようなイメージで検査結果を入力することができる。
図-2 Voin2Fieldによる音声入力のイメージ
Voin2Fieldの特徴は、最大120dB(*3) の高騒音下でも音声入力を可能としたことである。そのため、騒音が大きな工場内での使用に適している。
(*3): 120dBの騒音はジェットエンジンの近くに相当する。油圧プレス機の動作音が100dB、地下鉄の車内が80dB相当である。
Voin2Fieldにスマートグラスとカメラを加え、図-3のとおりスマートグラスと音声で画像を操ることによって、AI教師データ作成等を可能にした製品が、Voin2Field+αiである。
図-3 Voin2Field+αiを使用した教師データ作成のイメージ
(ビジネス特許出願中 特開2019-049796)
Voin2Field+αiでは、教師データの作成に加えて、学習結果を使用してAIによる画像認識を行う機能も備えている。
提供形態、価格:
1. 音声入力 基本セット(管理PC・サーバー及び音声認識端末1台ほか)250万円~
音声認識端末追加(1台あたり) 25万円~
2. AI認識 使用するAIエンジンによりご相談
内容詳細
Voin2Field+αiの利用シーンを以下に示す。
利用シーン1(作業の効率化)
- 音声入力で通常の検査・点検を行う。
- その際、以下のように作業を行いながら、教師データの作成からAIの利用までを行う。
- 点検箇所を写真撮影し、合否(OK/NG)を音声入力する。→ 教師データの作成
- 作成した「ラベル付き教師データ」を使用してAIの学習を行う。
- 通常通り、目視検査の結果を音声入力する。その際に、②で学習したAIを使い、検査を効率化する(例えば、AIでOK/NGの一次判定を行う)。
利用シーン2(作業ミスの防止)
- 荷受検査の結果を音声入力する。
- 人間が判断を迷っている場合、AIがサポートする(例えば、一見同じ物に見える材料の袋を撮影すると、AIが品名を答える)。
- また、人とAIによる二重チェックにも使用できる。
利用シーン3(教師データの作成)
- Voin2Field+αiを用いて、ラベル付き教師データを作成する。撮影にデジカメを使うと、ラベルを後で付与する必要があるが、+αiでは撮影しながらラベルを音声入力で付与可能。教師データの画像サイズをAIで学習しやすいように加工する必要があるが、+αiで撮影する場合は、音声操作によるズーム機能(1~16倍)を使用することによって対象を拡大して撮影することが可能であり、撮影後の加工を極力なくすことができる。
概要図
Voin2Field+αiの利用イメージを図-5に示す。
取り扱うデータの概要とその活用法
音声入力:
- 入力したデータはDBに、テキスト形式、数値形式等で格納
- 後続システムに対して、CSVやEXCEL、若しくは相手先DBに直接リンクして入力データを受け渡し
画像認識:
- Voin2Field+αiで撮影した画像形式はJPEG
- 撮影した画像は「ラベル付きAI教師画像データ」として画像認識AIの学習に使用
事業化への道のり
苦労した点、解決したハードル、導入にかかった期間
当社は、ディープラーニングによるAIの活用が未経験であったため、手探り状態での開発や事業化の推進で苦労した。また、最適な教師データとするための画像処理ノウハウを取得することに苦労した。
AI活用で成果が得られるかどうかは、やってみないと分からない部分があるため、実証実験して頂けるお客様を探すのが大変であった。実証実験を行った結果、想定通りの結果が出たため、安心して販売できるようになった。
画像を使用するためスマートグラスを採用しているが、開発にあたり、音声入力システム(Voin2Field)との接続を音声で操作することに苦労した。
技術開発を必要とした事項または利活用・参考としたもの
ディープラーニングのエンジンは、開発当初はメーカ系のものを利用して実証実験を行った。
並行して価格面を考慮したオープンソースのエンジンを使用した実証実験も行った。
オープンソースのエンジンは、柔軟性が高く、性能も良く、かつ安価に提供できるメリットがある反面、
GUI等はなく全てをコマンドベースで記述していく必要があり、それなりのノウハウの蓄積も必要となる。
お客様のご予算とご要望に合わせて両者を使い分けて提供する予定である。
今後の展開
現在抱えている課題、将来的に想定する課題
顧客開拓を行う中でAIを試したいが、試験的に使用するには非常に高価であるため導入に至らないお客様が多いことが分かった。そこで、当社は安価にAIを試したいお客様に向けて、300万円程度から実証できるPoCメニューを用意した。
AIの活用に取り組んだ結果として、人間が目視で認識できる物体は、AIでも認識できることが分かった。また、認識率を上げるための当社独自のノウハウがある程度蓄積できた。一方で、目視で判断できないものは人が教師データを作成することができないので、別の技術を利用することが必要かもしれない。
強化していきたいポイント、将来に向けて考えられる行動
AI活用には、早期に着手して経験を積むための先行投資が不可欠で導入リスクもあるが、AIは人の作業をサポートし、これを軽減することができるため、働き方改革の一環として欠かせない技術であると考えている。そのため、当社は、様々な業種への導入事例を作り、企業のAI導入を加速させたいと考えている。
今後は画像認識だけではなく、入力音声の識別もAIで実現できるよう研究開発を行いたい。また、安価にAIを提供するため、クラウド化にもチャレンジしたいと考えている。
将来的に展開を検討したい分野、業種
自治体、官公庁、製造業、食肉検査、市場等への展開を考えたい。そのために、APIを開発し、様々な業種で使用されている他社製ソフトウェアと簡単に連携できるようにしたい。