catch-img

【Listen Learner】自己学習する音声認識AIシステムを開発!Apple x HCII


目次[非表示]

  1. 1.Apple x HCIIが共同開発したAIとは
  2. 2.スマート家電の課題
  3. 3.Listen Learner の学習の仕組み
  4. 4.「 Edge Cases」に対する解決策
  5. 5.まとめ
  6. 6.参考


Apple x HCIIが共同開発したAIとは

Appleとアメリカのペンシルベニア州にあるカーネギーメロン大学のHuman-Computer Interaction Institute研究所(HCII)の研究チームが、周囲の音を拾って学習する組み込み型AIのシステムを開発しました。

このAIシステムは「Listen Learner」と名付けられています。
直訳すると「聞いて学ぶ人」となり、機能を表した名前です。
マイク付きスピーカーのようなスマート家電に組み込まれる予定です。

AppleとHCIIは、発表した論文の中でこう述べています 。

音響活動認識(Acoustic activity recognition)は、基礎的な技術として注目されています。これにより、デバイスにコンテキスト駆動型(文脈を読み取る)の能力を組み込むことができます。
つまり、より豊かで、より支援的で、より親切な対応を可能にするのです。
従来の音声認識のモデルは、現場で訓練されたカスタムモデル、または事前のトレーニングデータに依存しており、正確な判断をするためにはユーザーの負担が必要不可欠でした。
そこで私たちは、徐々に活動を認識する技術を採用した「Listen Learner」を発表します。これはユーザーの負担を最小限に抑えながら、配備された環境固有のイベント(音)を学習する仕組みになっています。
具体的には、1回限りの相互作用を通じて、ラベル付けされたイベントを自己学習するシステムとなっています。


スマート家電の課題

スマートデバイスは、IoT機器など影響もあり人々の生活の中への普及は加速していますが、前後の文脈を考慮して上手に状況を感知する機能が欠けています。周囲の状況への認識が低いために、状況を深く理解することができないのが現状で、それではスマートデバイスの持つ本当の潜在能力を制限してしまっているのです。

音響認識自体は新しいものではありません。しかし、それらを高精度で実現するためには多くの手動ユーザートレーニングを伴う事前学習が必要とされます。そのため、これを改善できるかという点にAppleとHCIIが取り組んでいます。

Listen Learner の学習の仕組み

周囲で発生する音を解釈するプロセスには、自己教師あり学習と、一度だけ人間の手で行われるラベリングの2段階があります。

この一度だけ人間の手で行われるラベリングというのは、スピーカーの疑問に返答することで行われます。スピーカーはクラスタリングに分類するのに十分な時間の音声を取得した後に 、「その音は何でしたか?」と聞いてきます 。 それに対してユーザーは何の音だったかを答えるという形です。

以下は、 人間の手で行われるラベリングの例です。

写真A・Bでは、Listen Learnerにとって”電子レンジが閉められる際に発生する音”は未知である状況です。

デバイス「何の音でしたか?」
 男性  「電子レンジだよ」

写真Cでは、男性が電子レンジを閉じました。Listen Learnerはその際に発生した音を問いかけ、男性はそれに対し答えています。

写真Dは、 Listen Learnerが ”電子レンジが閉められる際に発生する音” を認識しようとしている段階のものです。写真左下側に、”電子レンジが閉められる際に発生する音” が溜まっていっている様子がみてとれます。

写真Fで、 ”電子レンジが閉められる際に発生する音” が「電子レンジ」の音としてラベリングされたことがわかります。

またこのラベリングプロセスは、一般的な事前学習モデルを組み込むことによって、システムが初めて聞く音に対して、内容を推測することができるようになっています。

例えば、システムは「今の音は蛇口でしたか?」と質問することが可能で,人間は「はい」か「いいえ」と回答するだけでラベリングを完了することもできます。


「 Edge Cases」に対する解決策

研究者たちが「Edge Cases(境界線上のケース)」と呼んでいる音があります。

例えば、何かが閉められたような音が発生したとします。Listen Learnerのようなシステムは、発生した音がドアが閉められた音なのか、もしくは食器棚の扉が閉められた音なのかを判別しなければいけません。しかし、その二つの音はとても似ていて判別するのが難しいものです。また、既にドアを閉める音がクラスタリングされていた場合でも、食器棚の扉が閉まった音は、別の音として意味付けされないといけません。

認識を高めるための質問は、このような境界線上におかれた音(Edge Cases)をシステムに理解させることに役立つ、と論中で述べられています。

今回の紹介した「Listen Learner」の動画紹介版です


まとめ

今回は、最新の音声認識の技術について記事を書かせていただきました!
音声認識はこのように進化しているのですね。今後も、研究の進捗を追っていきたいと思います。
最後まで閲覧していただきありがとうございました!

Aidemy Premium Planの公式Twitter(@aidemy_pp)でも沢山の最新事例を紹介していますので、ぜひそちらもご覧くださいね!


参考

Tech crunch - アップルとカーネギーメロン大学が聞いて学ぶシステムを公開、よりスマートな家電開発目指す

Jason Wu et al.(2020). Automatic Class Discovery and One-Shot Interactions for Acoustic Activity Recognition. CHI '20: Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems, 1-14. 

※原文が英語の論文を翻訳しております。誤訳等ありましたら、ご指摘いただけると幸いです。



サービス

    セキュリティー・ポリシー