2018年6月21日木曜日

ヤフーが考えるこれからの音声技術の勝負どころ

ヤフーの音声技術とは

 音声認識を使ったヤフーのサービスといえば、累計ダウンロード数250万を超える対話型音声エージェントアプリ「Yahoo!音声アシスト」(Android)が挙げられる。同社のWeb検索や経路探索、天気予報などさまざまなサービスと連携しており、「六本木から浅草まで」と話しかけて経路検索をしたり、「水曜日の天気は?」と言って天気予報を確認したりできる。

 その音声アシストに使われている音声認識エンジンが「YJVOICE」だ。YJVOICE2015年にDNN(ディープニューラルネットワーク、深層学習)を導入。従来の手法と比べると、同じデータ量で学習した場合、音声認識した文の正解率は10%ほど改善したという。音声認識業務などを行うヤフーの三宅純平氏(データ&サイエンスソリューション統括本部 サイエンス本部)は、「音声認識にディープラーニングを活用するなどの論文が発表されたのが2012年ごろから。そこから3年後という、それなりに早いタイミングで取り入れることができた」と話す。

 
DNNの実装範囲

 
現在利用しているのはDNNHMMを組み合わせた音声認識モデル

 
DNNによる性能の向上

 三宅氏によれば、現状の音声認識で苦手なところを数十億単位で集めたデータから取り出し「音声データとその発話ラベルを教師データとして学習させている」という。

 しかし、音声認識にディープラーニングを導入している企業は多い。他社の技術と差別化する要素の1つは、「検索クエリ」の活用という。

 「ヤフーはWeb検索をはじめ、たくさんのクエリを持っているので、それを学習に利用している。例えば『東京』『から』『品川』という3つの組み合わせが共起しやすい(同時に出現する)確率を学習させ、次に来る単語の予測で正しいものを出しやすくする」(三宅氏)

 「発話された音声がどういう発音だったか」の識別はディープラーニングで、「その音がどんな言葉だったか」変換するところは検索クエリの学習で、それぞれ精度を高めているという。

 「自社で音声認識を持っていることの強みは、サービスに合わせて音声認識を改善できること。アプリごとに調整したり、(Web検索の)急上昇ワードを認識できるようにしたり、すぐに対応できる」(三宅氏)

 しかし、音声認識技術だけではYahoo!音声アシストのようなサービスを作ることはできない。もう1つ重要なのがいわゆる「音声理解」——認識した文字列がどんな内容であったかをコンピュータに理解させる意味理解のための技術だ。「音声認識だけではなく、音声理解との蜜月が今後は大事になる」(三宅氏)

 

 

音声理解の苦労は「言い方のバリエーション」

 音声理解に必要な単語処理や構文処理は、自然言語処理と重なる部分が多い。Yahoo! JAPAN研究所で自然言語処理などを研究している颯々野学氏(同研究所 部長 情報学博士)は「音声対話や音声理解をやる前からヤフーは自然言語処理の分野に取り組んできた」と話す。

 「テキスト中の『どの部分が固有名詞なのか』『地名なのか人名なのか』などを判定したり、文の構造を解析するシステムを作ったり……といったベーシックなところは全て取り組んでいて、それらを適宜音声理解へ利用している」(颯々野氏)

 しかし長年研究を続けていても、実際にユーザーが利用することで初めて見えてきた課題もあるという。それは「言い方のバリエーション」だ。「あることをする時、どのような言い方をするかのバリエーションは、私たちが思っているよりもずっと多い。お客さまの言った通りに理解するのは実は難しい」と颯々野氏は言う。

 同社がYahoo!音声アシストで5年にわたって蓄積した音声ログデータを調べたところ、スマートフォンの音量を上げるために使われた言葉で最も多いのは「聞こえない」だったという。他にも「声が小さい」「音が小さい」といった言い方もあれば、「音大きく」「音量上げて」や、「音量アップ」「ボリュームアップ」などの言い方もある。

 
スマートフォンの音量を上げるための言い方のバリエーション

 「実際にユーザーに利用してもらいながらシステムを作っているので、皆さんがどういう表現をどれくらいするのか、ある程度分かってきた。今後は対応範囲を広げ、ユーザーにとってより自然な表現で意図が通じるようにしたい」(颯々野氏)

これからの音声技術の勝負どころ

 今後の音声技術について三宅氏は「個人的な見解だが、3年後、5年後には音声認識の精度はどこも同じくらいになると思っている」と話す。だからこそ「音声から得られるコンテキスト——話者は男性か女性か、カフェテリアにいるのかテレビを見ているのか、などを理解し、ユーザーの体験を良くするために生かしていくのがわれわれの勝負どころだ」(三宅氏)と考えているという。

 そのための取り組みの1つが、雑音やノイズのある場所での認識精度の向上だ。これまでは雑音の少ないクリーンな音声のデータを中心に機械学習を行ってきたが、クリーンな音声にさまざまな雑音を組み合わせて作った「雑音下で話しているような疑似音声データ」もたくさん学習させることで、雑音にも強い音声認識技術を開発しているという。

 

0 件のコメント:

コメントを投稿