2017年4月7日金曜日

リアルタイム翻訳

 昔からSF小説などで語られる未来の世界に度々登場する「万能翻訳機」。相手がどこの出身であれ、どのような言語を話す人物であれ、その装置さえあれば問題なく意思疎通が図れるというものだ。アイデア自体は古くから存在するものの、コンピュータの性能的な制約が万能翻訳機の実現を阻んできた。

 しかし今日、手のひらサイズの小型ハードウェアが一昔前の大型コンピュータ並みの性能を持ち、高速な無線ネットワーク回線からクラウドを介し、蓄積された膨大なデータとコンピュータ処理能力を演算に利用できるようになった。ソフトウェアの研究も進み、より実用的な「人工知能(AI)」の本格活用も始まった。

 ハードウェアの性能が向上し、効率的な学習アルゴリズムが発展したことで、大量にデータを機械学習(Machine Learning)させて処理精度を上げることが可能になったのだ。ディープラーニング(Deep Learning)の世界では従来のパターン認識の枠を超え、より人間に近い判断や認識が行えるようになっている。

 今後5年や10年といった近い将来に、これまでのコンピュータでは難しかった「翻訳」や「自動車運転」が自動化されるようになり、「対人接客」の世界でもその作業の多くを機械が担うことになるだろう。

 日本で2017年4月7日に提供が始まったMicrosoftのリアルタイム翻訳サービスである「Microsoft Translator」の新版は、間違いなくその最先端の1つだ。

●日本語翻訳が大きく進化するMicrosoft Translator

 一般に、機械での翻訳作業は「コーパス(Corpus)」と呼ばれる一種の膨大な辞書データを参考に、逐次元となる言語から変換先の言語への置き換え作業が行われる。経験則的には、正確な翻訳が行われたデータが蓄積されるほど、精度の高い翻訳結果が得られる確率が高くなる。こうした一連のマッチング作業は「統計的手法(Statistical Translation)」と呼ばれる。

 この手法は文章のパターン翻訳ではあまり問題ないものの、変換作業を行う機械自体は文そのものの意味を理解していないため、翻訳対象となるフレーズの文章全体での位置付けや相互の関係性を把握しておらず、必ずしも意図した結果が出てくるわけではない。入力したデータと出力された結果に対して、学習効率自体がよいわけではないという問題もある。

 そこで出てくるのが「機械学習」、その中でも人の思考をベースに学習を進める「ニューラルネットワーク(Neural Network)」の方法論を取り入れた深層学習、ディープラーニングというわけだ。Microsoft Translatorでもこの手法を既に一部の言語翻訳に取り入れ始めており、4月7日のタイミングで日本語も従来の「統計的手法による機械翻訳(SMT:Statistical Machine Translation)」から新しい手法への切り替えが一斉に行われることになる。

 それではディープラーニングを用いた新しい手法の機械翻訳はどの程度の能力を持つのか。Microsoftは、従来手法との結果を比較するサイトを用意している。

 ただ、筆者が試した範囲では、まだ必ずしも納得できる結果が得られるわけではなかった。新しい手法の機械翻訳は文脈(内容)で判断するため、入力した文章が長いほど精度は上がるものの、意図した形での翻訳ではなかったり、表現に違和感が生じたりする場面も少なくない。

 しかし、米MicrosoftのAI & Research部門担当ディレクターのオリヴィエ・フォンタナ氏は「今回の最大のポイントは仕組みが一新されたことだ。データの存在はサービスを改善していくためのガソリンであり、今後もさらによくなっていく。全ては内容次第だ」と説明する。

 また翻訳で違和感がある部分についても「日本語においては正確さだけでなく、"丁寧さ(Politeness)"が重視される傾向がある。暴言(Profanity)フィルターも合わせて、こうした部分が重要になるだろう」とコメントしている。

●新しいMicrosoft Translatorで可能になること

 4月7日のタイミングで日本で利用可能になるサービスは次の3つだ。

・Microsoft Translator speech API

・Microsoft Translatorライブ機能

・TranslatorライブPowerPointアドイン(OutlookおよびEdge plug-inは現在提供中)

 Translator speech APIはMicrosoft Azureで提供されるCognitive(認識) Servicesの1つで、「音声認識によるテキスト変換」と「自動翻訳」の2つの機能を組み合わせた開発者向けAPIサービスだ。

 このAPIを使って提供されるのが「Microsoft Translatorライブ機能」と各種アプリ向けアドインとなる。「ライブ機能」とは対応言語の一斉翻訳サービスで、ある言語で話した内容が、すぐに各言語に自動翻訳される。

 例えば、英語、日本語、ドイツ語、フランス語の話者が集まったミーティングで、各人がMicrosoft Translatorアプリを導入したスマートフォンを片手に会話した場合、英語で話した内容がそのまま残りの言語に逐次翻訳される。

 Microsoft Translatorを導入したSkype Translator(Skype翻訳)もWindows PCで利用可能となり、使う言語が異なる複数メンバーのオンラインミーティングではそれぞれの参加者のSkypeクライアントにリアルタイム翻訳したテキストや音声が出力される。もし自分だけが日本語で会話に参加していた場合でも、日本語で話しかければ相手の言語に自動翻訳されて伝わる仕組みだ。

 ちなみに、現状でSkype TranslatorはWindows PCで利用でき、モバイルアプリは非対応という(有料オプションとして、PCからスマートフォンへの音声翻訳は可能)。

 現在、このライブ機能は日本語をはじめ、アラビア語、中国語(マンダリン)、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語、ロシア語の全10カ国語に対応している。

 利用シーンとしてまず思い付くのは会議のような場面かもしれないが、旅行やインバウンド対応の場面でも有用だろう。

 筆者は英会話はできるが、他の言語は多少読み書きやあいさつができる程度だ。出張時には多くの国で相手が英語を話せるおかげでだいぶ助けられているが、中国では現地語しか話せない相手が非常に多く、毎回コミュニケーションに苦労している。実際、4月中旬に中国出張を控えているのだが、ここで実際に活用できないかと考えている。

 Microsoft Translatorは写真撮影したテキストの読み取りも可能だ。例えば、海外に行ってイタリア語で書かれたレストランのメニューが読めない、ロシア語で書かれた案内が意味不明といった場面で役立つだろう。ライブ機能で利用できる逐次通訳の音声入力対応言語は10カ国語だけだが、テキストであれば60言語に対応できる。

 一方で「文章の読み上げ(Text to Speech)」による音声出力は18言語に対応しており、より活用の場は広い。この機能が海外旅行で最も役立つはずだ。インバウンドも同様、特に英語や中国語の対応が追い付いていない、主に地方での外国人案内において一助となるに違いない。音声出力はまだまだ機械的で不自然だが、次第に改良されていくだろう。

●SFの世界が現実になりつつある?

 このMicrosoft Translatorで実現される世界を説明するにあたって、責任者のフォンタナ氏は『スター・トレック(Star Trek)』や『銀河ヒッチハイク・ガイド(The Hitchhiker's Guide to the Galaxy)』といったSF作品を例に挙げている。これらは宇宙を舞台とした作品であり、さまざまな言語を話す宇宙人とコミュニケーションをとる場面が何度も登場する。

 ちなみに、2016年3月にMicrosoftが開催した開発者向けカンファレンスのBuild 2016では、Microsoft Translatorでクリンゴン語(スター・トレックに登場する架空の言語)を翻訳させるという謎解きがあった。将来的にクリンゴン語が必要になるかどうかはともかく、SFの世界も間近になりつつある印象を受ける。

 日本では『ドラえもん』の「ほんやくコンニャク」と言った方がイメージしやすいかもしれないが、このネコ型ロボットの誕生日とされている2112年9月3日を待たずして、高品質のリアルタイム自動翻訳機能は現実のものとなるだろう。

●Microsoft Translatorの仕組みと料金体系

 前述のように、Microsoft TranslatorはAzureで提供されるCognitive Servicesの1つで、「音声認識によるテキスト変換」と「自動翻訳」の2つの機能を組み合わせたTranslator speech APIという開発者向けAPIサービスで実現されている。

 ライブ機能においては、音声認識でいったん言語をテキストに変換して翻訳後、Text to Speechによる音声出力で通訳が行われている。この仕組みは「TureText」と呼ばれており、Microsoft独自開発の技術だ。音声認識も翻訳も機械学習を使った最新の研究の成果であり、APIを利用することで誰でもこの仕組みをアプリやサービスに組み込める。

 2種類のAPIはそれぞれ「Microsoft Speech Translator」と「Microsoft Text Translator」と呼ばれる。これらをアプリやサービスに組み込んで利用する場合、一定の時間または文字数までは無料で、それを超えると従量課金か、一定水準までの利用が可能なサブスクリプション方式となる。

 もっとも、ユーザーとしてMicrosoft TranslatorとSkype Translatorを利用するぶんには無料なので、最新のリアルタイム自動翻訳機能がどこまで使えるのかが気になる方は、アプリを導入して試してみてはいかがだろうか。

●通訳者や翻訳者の仕事、英語学習の将来はどうなる?

 ところで、今後はMicrosoft Translatorのようなリアルタイム翻訳サービスが進化して広まることで、通訳や翻訳の仕事が減り、さらには小学校でも義務化された英語教育に対する熱が冷めることになるだろうか。

 Microsoftによれば、同サービスの狙いはこうした仕事やモチベーションの置き換えではなく、現状でコストや時間の制約により多言語対応が行き届いていない業務を補助することにあるという。機械翻訳の利点は何よりスピードが速いことだ。人間による翻訳にコストをかけられない場合、スピード優先の解決策として大きな効力を発揮するとしている。商談やスピーチなど、重要な場面での置き換えはまだまだ先の話だという考えだ。

 筆者としては、清書なしの素の翻訳精度がかなり向上していることから、例えば素早く大量の外国語の文章を読んだり、手作業で翻訳する前にざっと基になるテキストを入手したりするときなど、いろいろ使えそうだと考えている。恐らく、単純なニュースのような文章を翻訳する仕事は今後人手を離れていくだろう。

 一方で文学的、専門的素養を求められる翻訳や通訳においては、引き続きプロフェッショナルな人々による仕事が求められる。間違った解釈が致命的となる法律や契約関連の文書では、機械翻訳を利用したことによる損失について、Microsoftが肩代わりすることはないだろう。利用は自己責任となるが、必要なものには投資しろというコスト対効果を試される場面になる。

 Microsoftはもう1つ興味深い事例を紹介している。社内用Webページで2言語以上のバージョンが用意されているケースは全体の3%程度しかなく、残り97%は母国語のみの対応だ。一方、世界的なアプリケーションやサービスに占めるGDPあたりの比率をみると、英語圏(インドを含む)だけだと32%にとどまる。これが英語、中国語、日本語、フランス語、ドイツ語までの主要5言語に拡大すると64%となり、さらにスペイン語、ポルトガル語、ロシア語、イタリア語、韓国語まで加えた10言語では81%に達する。

 つまり、Microsoft Translatorがカバーしている主要言語に対応するだけでも、経済規模としては8割以上をカバーできることになる。機会損失を避け、安価で手早くビジネスチャンスを増やすためにサービスを活用してほしい、というのがMicrosoftからのメッセージだ。

2017年4月5日水曜日

アドビ、オープンソース書体「源ノ明朝」を公開--グーグルが制作協力

 アドビシステムズは44日、新たなオープンソースPan-CJK書体「源ノ明朝」を発表した。同社のフォントライブラリ「Adobe Typekit」のほか、ソースコード管理サービス「GitHub」から無償ダウンロードできる。


「源ノ明朝」

 源ノ明朝はグーグルの協力のもとに生まれた書体で、アドビ製フォントとしては源ノ角ゴシックに次いで2番目のPan-CJK書体ファミリとなる。東アジアで用いられている4つの言語(簡体中国語、繁体中国語、日本語、韓国語)で必要な文字をサポート。各言語の多様性を尊重するとともに、共通化できる部分についてはデザインの一貫性を高めているという。

 さらに、欧文の文字セットも内包しており、ラテン、ギリシアおよびキリル文字に対応する。この書体の開発には、日本のイワタをはじめ、韓国のSandoll Communications、中国のChangzhou SinoTypeがパートナーとして参加している。簡体中国語、繁体中国語、韓国語がそろっていることから、インバウンド用途にも適しているといえる。

 また、源ノ明朝の発表に加え、アドビでは410日を「フォントの日」と制定。それを記念し、フォントの日にプレスイベントおよびトークセッションを実施するとしている。