1/5ページ

このカタログをダウンロードして
すべてを見る

ダウンロード

機械装置の稼働率を高める監視技術、 アナログ・デバイセズのAIで音の意味を把握する

ホワイトペーパー

装置の状態監視を行うためのアーキテクチャ/プラットフォームである「OtoSense」について解説します

機械装置の保守の必要性を実感している人であれば、装置が発する音や振動がいかに重要な意味を持つか知っています。音や振動を利用して適切に装置の状態を監視することにより、装置の保守にかかるコストを1 /2に削減し、寿命を2倍に延伸することができます。状態基準保全(Conditional Based Maintenance)向けのシステムを実現する上では、音のライブ・データを収集/解析する手段を実装することが、1つの重要なポイントになります。

本稿では、装置の状態監視を行うためのアーキテクチャ/プラットフォームである「OtoSense」について解説します。OtoSenseは、「コンピュータ聴覚(Computer Hearing)」という機能を実現します。この機能は、装置の状態を表す音と振動を主な指標とし、その意味をコンピュータによって解釈するというものです。

★詳細は、記事をダウンロードしてご覧ください。

このカタログについて

ドキュメント名 機械装置の稼働率を高める監視技術、 アナログ・デバイセズのAIで音の意味を把握する
ドキュメント種別 ホワイトペーパー
取り扱い企業 アナログ・デバイセズ株式会社 (この企業の取り扱いカタログ一覧)

このカタログの内容

Page1

Analog Dialogue 53-04、2019年4月 Share on Twitter Facebook LinkedIn Email 機械装置の稼働率を高める監視技術、 アナログ・デバイセズのAIで音の意味を把握する 著者: Sebastien Christian はじめに 本稿では、まずO t o S e n s eの開発方針について説明しま 機械装置の保守の必要性を実感している人であれば、装 す。続いて、設計に際して参考にした人間の聴覚の仕組 置が発する音や振動がいかに重要な意味を持つか知って みについて詳しく解説します。そのうえで、音または振 います。音や振動を利用して適切に装置の状態を監視す 動の特徴(F e a t u r e)を表現する方法、それらから意味 ることにより、装置の保守にかかるコストを 1 / 2に削減 を導出する方法を紹介します。最後に、より高い精度で し、寿命を2倍に延伸することができます。状態基準保全 より複雑な診断を実行できるように、時間の経過に応じ (Condi t iona l Based Main tenance)向けのシステムを実 てOtoSenseを進化/改善するための継続的な学習プロセ 現する上では、音のライブ・データを収集/解析する手 スについて説明します。 段を実装することが、1つの重要なポイントになります。 開発方針 そうしたシステムでは、まず装置の正常な稼働音を把握 堅牢かつアグノスティックで効率的なシステムを構築す します。音に変化が生じたら、それを異常として検知し るために、OtoSenseは以下に示すいくつかの方針に基づ ます。その結果、問題を特定することができれば、その いて設計しました。 音を特定の問題と関連づけられます。異常の検知は、わ ずか数分のトレーニングで行えるようになります。た XX 神経学から着想を得る:人間は耳にする任意の音を学 だ、音や振動をその原因と結び付けて診断できるように 習し、それに意味を持たせることができます。また、 なるまでには、かなりの時間を要します。そのような知 非常に高いエネルギー効率でそれを行います。 識を身につけた経験豊富な技術者は存在しないわけでは XX ありません。しかし、決して多くはありません。音だけ 定常音と過渡音を学習できるようにする:これには、 で問題を直感的に認識するというのは、蓄積されてきた 適切な特徴の抽出と継続的な監視が必要です。 記録や詳しく解説された枠組みがあったり、専門家から XX センサーの近くのエッジで認識を実行する:リモー 個人的な指導を受けたりしたとしても、難易度が高い可 ト・サーバとのネットワーク接続を必要とすることな 能性があります。 く、判断が行えるようにします。 XX 専門家に負荷がかからないようにする:専門家と意見 そこで、筆者が所属するアナログ・デバイセズでは、この を交換したり、専門家から学んだりする必要が生じた 20年間、人間が音や振動の意味を理解する仕組みを解明 場合に、専門家の日々の仕事量に及ぼす影響を最小限 すべく、取り組みを進めてきました。その目的は、装置の に抑えます。また、そうしたやり取りの過程を楽しい 音や振動を把握し、その意味を解釈して異常な動作を検出 ものにするよう努めます。 できる診断システムを構築することでした。本稿では、装 置の状態監視を行うためのアーキテクチャ/プラットフォ 人間の聴覚システムをOtoSenseに変換 ームである「OtoSense」について解説します。OtoSense 人間の聴覚は、生存を維持するために備わっている感覚 は、「コンピュータ聴覚(Computer Hear ing)」という です。この感覚は、遠方で生じた事象や目に見えない事 機能を実現します。この機能は、装置の状態を表す音と 象を全体的に捉えるためのものであり、生まれる前の段 振動を主な指標とし、その意味をコンピュータによって 階で成熟します。 解釈するというものです。 人間が音に意味を持たせるプロセスは、アナログでの音 OtoSenseをベースとするシステムは、任意の装置に適用 の取得、デジタル信号への変換、特徴の抽出、解釈とい 可能です。また、ネットワークに接続することなく、リ う4つのなじみ深いステップで表すことができます。以 アルタイムに動作します。産業用アプリケーション向け 下では、各ステップについて、人間の耳とOtoSenseベー に構築されており、装置の状態を監視するためのスケー スのシステムを対比して説明します。 ラブルで効率的なシステムを実現できます。 analog.com/jp/analog-dialogue 1
Page2

XX アナログでの音の取得、デジタル信号への変換:人間 音と振動から特徴を抽出 は、中耳の鼓膜と耳小骨によって音を取得します。そ 特徴には、一定の時間(時間ウィンドウ、つまりはチャ のうえで、インピーダンスを調整し、リンパ液で満 ンクで決まる)における音または振動の属性/質を表す たされた蝸牛に振動を伝達します。蝸牛管内の基底膜 番号が割り当てられます。OtoSenseは、以下の方針に従 は、信号に含まれる周波数成分に応じて選択的に変位 って特徴を選択します。 します。その結果、柔軟な細胞が屈曲し、その曲がり 具合と強さに応じたデジタル信号が出力されます。個 XX 特徴は環境を表すものでなければならない:特徴は、 々の信号は、周波数成分ごとにふるい分けられ、平行 周波数領域と時間領域の両方において、できるだけ完 する神経経路を通って1次聴覚野に到達します。 全かつ詳細に環境を表すものであることが必要です。 • O t o S e n s eでは、センサー、アンプ、コーデックに 「ブーン」、「カチカチ」、「ガタガタ」、「キーキ よって、上記の内容と同等の処理を行います。デジ ー」といった定常音と、任意の種類の過渡的な不安定 タル信号への変換処理には、2 5 0 H z~ 1 9 6 k H zの範 性を表せるものでなければなりません。 囲で調整可能な固定のサンプル・レートを使用しま XX 特徴は、できるだけ直交した集合を構成しなければな す。信号は16ビットで符号化され、128~4096個の らない:例えば、1つの特徴が「チャンク内の平均振 サンプル・データがバッファに格納されます。 幅」として定義されている場合、「チャンク内の合計 XX 特徴の抽出:1次聴覚野において、支配的な周波数、 スペクトル・エネルギー」といった具合に、それと強 高調波、スペクトル形状といった周波数領域の特徴 く相関を持つ別の特徴が存在してはなりません。当然 と、約3秒間の時間ウィンドウ内における衝撃、強度 のことながら、完全な直交性は達成できませんが、他 の変動、主要な周波数成分といった時間領域の特徴が の特徴の組み合わせとして表現される特徴が存在する 抽出されます。 のは許されません。言い換えれば、各特徴には何らか O t o S e n s e C h u n k の特異な情報が含まれている必要があります。• では、チャンク( )と呼ばれる固 定のステップ・サイズで移動する時間ウィンドウを XX 特徴は、演算を最小限に抑えられるものでなければな 使用します。チャンクのサイズとステップは、認識 らない:人間の脳にできるのは、加算、比較、ゼロ しなければならない事象とサンプル・レートに応じ へのリセットだけです。O t o S e n s eのほとんどの特徴 て23ミリ秒~3秒の範囲内で設定され、特徴はエッ は、インクリメント変数として設計されています。新 ジで抽出されます。O t o S e n s eによって抽出される たなサンプルが加わるごとに、特徴は単純な演算によ 特徴については、次のセクションで詳しく説明しま って変更されます。そのため、チャンク全体はもちろ す。 ん、バッファ全体を対象として特徴を再計算する必要 はありません。演算の最小化は、標準的な物理単位に XX 解釈:解釈が行われる連合野は、すべての知覚と記憶 ついて配慮する必要がないということも意味します。 を融合し、言語などによって音に意味を付与します。 例えば、強度を表すのにdBAを単位とする値を使う必 つまり、人間の知覚を形成する上で非常に重要な役割 要はありません。そうした値が必要であれば、出力す を果たします。解釈は、事象に対して単に名前を付け る際にそのための演算を行うだけで済みます。 るだけの作業ではありません。それをはるかに超えた 描写を整理するプロセスです。事柄、音、出来事など に名を付与することで、人間はそれらに対してより深 OtoSenseでは、時間領域に対応する2~1024の特徴を扱 く重層的な意味を与えることができます。名称や意味 います。それらは信号から直接抽出されるか、またはチ によって、専門家はその環境についてより深く理解で ャンク内の他の特徴から導出されます。それらの特徴に きるようになります。 は、平均または最大の振幅、信号の線形長から導出した 複雑さ、振幅の変動、衝撃の存在とその特性、最初と最 • O t o S e n s eと人間の相互作用が、人間の神経学に 後のバッファ間の類似性としての安定性、畳み込みを行 基づき、教師なし(U n s u p e r v i s e d)の視覚的な音 わない状態での皮相的な自己相関、主要なスペクトルの 声マッピングから始まる理由はここにあります。 ピークの変動などが含まれます。 O t o S e n s eは、取得したすべての音や振動をグラフ ィカルに表現し、類似性に基づいて分類します。 周波数領域で使われる特徴は、FFT(高速フーリエ変換) 但し、厳密なカテゴリを設けようとはしません。 の結果から抽出されます。FFTの演算はバッファ単位で行 そのため、専門家は、有界のカテゴリを人工的に作 われ、128~2048の周波数成分が生成されます。続いて、 成することなく、画面上に表示された分類集合を 必要な次元数のベクトルを作成します。次元数は、当然の 整理して命名することができます。また、専門家は ことながら、FFTのサイズよりもはるかに小さいわけです O t o S e n s eの最終出力に関する自らの知識、知覚、 が、環境を包括的に表現することができます。OtoSense 期待に合致したセマンティック・マップを構築する では、まずアグノスティックな方法により、対数スペク ことが可能になります。自動車の整備士、航空宇宙 トルに対する等サイズのバケットを作成します。続いて、 分野の技術者、冷間鍛造プレスの専門家といった分 環境と識別したい事象に応じてエントロピを最大化する 野ごとに、あるいは同じ分野でも企業ごとに、同じ 教師なしの観点、またはラベル付けされた事象を指針と サウンドスケープが異なる形で分割、整理、ラベル して利用する半教師あり(S e m i - s u p e r v i s e d)の観点の 付けされる可能性があります。O t o S e n s eは、人間 うちいずれかに基づき、情報の密度が高いスペクトル部 が言語を使用するのと同様に、ボトムアップのアプ 分に焦点が絞られるようにバケットを調整します。これ ローチで意味を形成します。 は、音声情報が最大の部分で密度が高くなる、人間の内 耳細胞の構造を模倣したものです。 2 Analog Dialogue 53-04
Page3

アーキテクチャ:エッジとオン・プレミスの 入力された音や振動が正常な場合のものかどうかを評価 データに力を与える する際には、以下に示す異なる2つの戦略を適用します。 OtoSenseによる異常値の検出と事象の認識は、リモート X 1つ目の戦略は、正常性と呼ばれるものです。特徴空 のアセットを全く利用することなくエッジで行います。 間に新たに入力された音について、その環境、基準点 このようなアーキテクチャであることから、システムは やクラスタとの距離、クラスタの大きさを確認しま ネットワーク障害の影響を受けません。また、分析を行 す。距離が遠く、クラスタが小さいほど、その音の異 うためにすべての未加工データを送信する必要がなくな 常性は高く、異常値のスコアは高くなります。異常 ります。O t o S e n s eの処理を実行するエッジ・デバイス 値のスコアが、専門家が定義した閾値を超えている場 は、音を使ってリアルタイムに装置の問題を把握する自 合、該当するチャンクは「異常」としてラベル付け 己完結型のシステムとなります(図1)。 され、専門家が確認できるようにサーバに送信されま す。 通 常 、 A I( A r t i f i c i a l I n t e l l i g e n c e: 人 工 知 能 ) と H M I(H u m a n M a c h i n e I n t e r f a c e)の機能を実行する X 2つ目の戦略は、とてもシンプルなものです。チャン OtoSenseのサーバは、オン・プレミスの形で運用されま クに対する入力の特徴の値が、基準を定義する全特徴 す。意味のある複数のデータ・ストリームをOtoSenseに の最大値を上回るか最小値を下回る場合、そのチャン 対応するデバイスの出力としてまとめるという目的に対 クは「極度の異常」としてラベル付けされ、サーバに しては、このクラウド・コンピューティングのアーキテ 送信されます。 クチャが合理的な選択肢となります。OtoSenseのAIは、 大量のデータを処理して1つのサイト内にある数百台のデ 「異常」と「極度の異常」の2つを組み合わせることによ バイスとやり取りするだけです。この目的に対して、ホ り、異常な音や振動を十分に網羅し、漸進的に進行する摩 スティング型のクラウド・コンピューティングを利用す 耗と、予期せぬ過酷な事象を検出することができます。 るのはあまり意味がありません。 特徴に基づく事象の認識 特徴に基づく異常の検出 特徴は物理的な領域に属し、意味は人間の認識力に属しま 正常か異常かの評価には、さほど専門家が介入する必要 す。特徴と意味を関連づけるためには、OtoSenseのAIと はありません。専門家の介入が必要になるのは、装置の 人間である専門家の間の相互作用が必要になります。当社 正常な音と振動の基準を確立する際だけです。その基準 は、かなりの時間を費やして顧客からのフィードバックを が、OtoSenseのサーバで使用する異常値のモデルに変換 取り入れ、技術者がOtoSenseと効率的にやり取りして、 され、デバイスに適用されます。 事象の認識モデルを設計することを可能にするHMIを開 発しました。このHMIを使えば、データの調査を行い、 ラベル付けを実施し、異常値のモデルと音の認識モデルを 作成し、それらのモデルのテストを行うことができます。 学習モードにおける未加工データと コンテキスト。検出モードについては オプション/カスタム OtoSenseのサーバ OtoSenseのエッジ・ノード 学習 ローカルのクロー 解釈 ローカルのクロー 相互作用 ズド・ネットワーク 事象の識別 を介して接続 異常の検出 ズド・ネットワーク 最適化 を介して接続 通知 ロギング プロビジョニング、認識モデル、 異常値のモデル、ファームウェアの アップデート(すべて非同期) 図 1 . O t o S e n s eをベースとするシステム Analog Dialogue 53-04 3
Page4

「OtoSense Sound Pla t te r」(sp la t te rとも呼ばれます) 異常値に対しては、一定の時間内のすべての異常音と極 を使えば、データ・セットの包括的な概観を把握しつつ、 度な異常音を表示するインターフェースを介して、調査 音の調査とタグ付けを行うことができます。spla t te rは、 とラベル付けが行えます(図5)。 データ・セット全体の中から関心を持つべき代表的な音 を選択し、ラベル付けされた音とされていない音が入り 混じった2次元の類似性マップとしてそれらを表示しま す(図2)。 図 5 . 時系列での音の分析。O t o S e n s eにおいて 異常値を視覚化することで実現しています。 図 2 . O t o S e n s e S o u n d P l a t t e rによる 2次元マップ(sp l a t t e rマップ) 異常の検出から、より複雑な診断までの 継続的な学習プロセス OtoSenseでは、任意の音または振動を、コンテキストと O t o S e n s eは、複数の専門家から学習し、時間の経過に 共にいくつかの異なる方法で視覚化することができます。 伴って、より複雑な診断ができるように設計されていま その1つは「Sound Widget」(swidgetとも呼ばれます) す。通常のプロセスは、OtoSenseと専門家の間の再帰的 を使用する方法です(図3)。 ループによって行われます。その詳細は以下のようなも のになります。 XX 異常値のモデルと事象の認識モデルはエッジで実行さ れます。それらによって、異常値のスコアと共に、潜 在的な事象が発生する確からしさを表す出力が生成さ れます。 XX 定義された閾値を超える異常な音または振動によ って、異常値の通知がトリガされます。これを受け て、O t o S e n s eを使用する技術者は、その音とコンテ キストを確認することができます。 XX 続いて、技術者は、その異常な事象にラベル付けを行 います。 XX その新たな情報を含む新たな認識モデルと異常値のモ デルが計算され、エッジ・デバイスに送られます。 図 3 . O t o S e n s eの S o u n d W i d g e t( s w i d g e t) まとめ また、異常値のモデルまたは事象の認識モデルは、任意 アナログ・デバイセズのOtoSenseは、任意の装置に対し の時点で作成できます。事象の認識モデルは、円形の混 て音と振動に関する専門的な知見を継続的に提供し、ネ 同行列として表現されます(図4)。OtoSenseのユーザ ットワークに接続することなく、異常値の検出と事象の ーは、それを使用することにより、混同事象について調 認識を実施できるようにすることを目的としたものです。 査することができます。 この技術は、航空宇宙、自動車、産業の各分野において、 装置の状態監視向けに広く採用されつつあります。かつ ては人間の専門的な知見を必要とし、特に複雑な装置に 関しては組み込みアプリケーションが必要だった環境に おいて、優れた実績を積み重ねています。 参考資料 Sebast ien Chris t ian「How Words Create Worlds(言葉が 創り出す世界)」TEDxCambridge、2014年 図 4 . 必要な事象に基づいて 作成された事象の認識モデル 4 Analog Dialogue 53-04
Page5

Sebastien Christian 著者: Sebas t ien Chr is t ian(sebas t ien .chr i s t ian@analog .com)は、アナログ・ デバイセズでの製品化に向けて、OtoSenseの開発を統括しています。 Chr i s t i anはかなり早い時期から「人間が自らの感覚を利用して、世界の 内面モデルを共有可能なものとして構築し、そのモデルを使って人間が 住む世界を表現する方法を理解したい」と強く願っていました。量子物 理学の修士号に続いて神経科学の修士号を取得した後、セマンティクス に関する学位も取得しています。これらの分野において、研究、開発、 フィールド実験を融合した形で学問を修めてきました。その後、精神障 害や聴覚障害を抱える子供を対象とする発話と言語の病理学者として、10 年間就業しました。それを通して、センサーをベースとし、聴覚に重点を 置いて意味の形成/共有を実現する手法について理解を深めていきまし た。Chr i s t i anは、「若い患者たちと何年も向き合った当時の経験によっ て、ばらばらだった知識のかけらのすべてが首尾一貫した1つの形にまと まった」と述べています。 同じ時期に、フランス保健省のエキスパートとなり、難聴に関する制度 に対して助言を行っていました。医科大学やパリ・ソルボンヌ大学で教 鞭を取り、2011年には、知覚障害や認知障害を抱える人々に対し、AIに 基づくイノベーションをもたらすことを専門とする初の独立系民間R&D 施設を創設しました。 2013年には、機械聴覚(Machine Hear ing)プロジェクトにおいて完全な プロトタイプを完成させ、米マサチューセッツ州ケンブリッジで行われた 技術コンペティション「NETVA」で賞を授与されました。MIT(マサチュ ーセッツ工科大学)の同僚や産業界からかなり好意的なフィードバックを 得たことを受けて、2014年初頭にOtoSenseを創設しました。そして、任意 の音に意味づけすることに焦点を絞った初のAIを開発しました。機械聴覚 に対応するこのプラットフォームは、複雑な環境や複雑な機械の監視にう まく適応できるということが明らかになりました。 開発したAIは、2015年の「GSMA Mobi le Wor ld Congress」において、 「Best App of the Year」を受賞しました。その他にいくつかの賞を授与 された後、OtoSenseの開発は、産業分野と輸送分野における機械の監視 に焦点を絞って進められるようになりました。その先にある広範かつ潜 在的な用途への展開も見据えています。 Analog Dialogue 53-04 5