現状のappleのsiriについてまとめてみた

今回の記事ではappleのsiriに使われている音声認識の技術に関する論文が発表されていたのでまとめました. 参考にしたニュース記事はこちらです. 今までのsiriではlocalのお店の名前などのフレーズに関しては認識できなかったです. このようなフレーズは学習データに出現回数が少ないと考えられるし, 世界的に使用可能な音声認識システムを構築するためにはlocalな単語を認識することは考えないのが普通だと思います. しかし, 今回の論文では位置情報を利用して自分が今いる地域のlocalな単語の辞書を作成し活用することで認識精度が向上したらしいです(現在は英語限定です). どのようなことをして実現したのかを解説していきたいと思います.

従来の音声認識と問題点

一般的な音声認識は主に音響モデルと言語モデルの二つの要素で構成されています.

  • 音響モデルは音声の要素と単語の要素の関係性を捉えたモデルのこと.
  • 言語モデルは音響モデルで捉えた単語の要素の繋がりを決定するモデルのこと.

少し分かりにくいので具体的な音声認識の流れを図に示します.

マイクから取得した音声を音響モデルで単語に変換します. 音響モデルで変換した単語を言語モデルで意味のある語の連なりに変換します. 図の例で説明すると, 音声を[t,h,a,n,k,s]と文字に変換し言語モデルで文字から[thanks]と意味のある語のつながりに変換するイメージです.しかし, このような音声認識システムの問題点としては大きく二つあります.

  • ユーザー依存のよくわからない発音を表現できない.
  • 学習データに一回もしくは一回も出てきていない単語は認識することが困難.

二つ目の問題に関して, 一般的な言語モデルではとても確率が低いと判断されてしまうため認識が困難であると考えられます. この論文では二つ目の問題を解決することで認識精度の向上を図っています. 方法としては出現頻度の少ない単語に関して特別な辞書を作成し(この辞書は地域によって異なる), ユーザーの位置情報を利用して適切な辞書を適用するというものです.

Geo-LM

この論文では位置情報を考慮した辞書で学習したモデルのことをGeo-LMと呼んでいます. 現状ではこのGeo-LMがどのように構成されていてどう音声認識を制御しているのかを理解しきれていないので理解できたら追加しておきます・・・.

実験結果

実験に使用したは5000時間の英語の音声データでモデルはCNN-HMMモデルを使用していました. 音響モデルの入力特徴量はフィルターバンクで言語モデルのn-gramは4-gramを使用して学習していました. 実験結果が下の図なのですがGeneral LM errorがGeo-LMを用いない手法を用いた時のエラー率でGeo-LM errorが提案手法を用いた時のエラー率です. 結果としてはそれぞれの地域でエラー率を9%~12%程度削減できていることがわかります. 従来手法では4回に1回は認識できていなかったのに対して, 提案手法では9回に1回の認識ミスになっているのでかなりエラー率を削減できていると思います.

感想

今回はappleのsiriについての論文が出ていたのでまとめてみました. 今までよりかなりエラー率が削減できていることが分かりますし, 今回提案している考え方は地域別の適用だけではなく職業別や環境別にも適用しやすいのかなと思いました. もちろん多言語への適用も簡単にできると思います. アメリカでは実際に使えるようになっていて, いい結果を出した手法はすぐに取り入れてユーザのフィードバックなどをもらえるのもappleの強みだと思います. 今後も認識率向上のために様々な手法が取り入れられていくと思うので楽しみなところです.

Published by

ryousuke nasuno

東京都市大学工学研究科の修士2年の学生です. Deep Learningを活用した研究をしています.

Leave a Reply

Your email address will not be published. Required fields are marked *