2018年6月15日金曜日

マップ共有、そして顔、のARKit関連セッション


Gaze and Tongue とにかくGazeTrackingがすごい。iPhoneXのカメラを用いて視線追跡をすることが出来る。 もちろんAnimoji/Memojiで目をそらす・合わせるというコミュニケーションが出来るようになります。目が合うってのは相手の実在感に大きな役割を果たすと考えられるのでとても楽しみです。 また、従来から視線追跡が役立つと言われていたアプリケーション、たとえばwebデザインの評価をするための調査アプリなども今後現れてくると考えられるのでわくわくします。なお現地ではGazeと同じくらい舌のトラッキングもアピールされてたんですが、正直そういう派手なコミュニケーションをしない私には舌の使用機会の想像は難しいかもという感想でした。。。

Saving World Model これは来るだろうと予想されていた機能の一つ。ARKitを用いて作成された環境マップをシリアライズしてsave/loadできる。一度アプリを閉じて再起動しても閉じる前に置いておいた仮想物体が使えるとか、さらにはネットワーク越しに送信できるので、複数人で座標系を同期したAR体験ができるようになりました。会場では会期中常設でAppleの複数人ARゲームのデモアプリ"SwiftShot"が遊べるようになっていて、私も2回プレイしました。

Environment Texturing これはAR空間に置いた仮想物体の実在性を高める機能としてとても印象に残りました。金属製のボウルのような光沢の有る仮想物体を置いたときに、現実側のテクスチャをちゃんと反映させる機能です。そのボウルの置かれた点から見た世界のテクスチャマップを自動でつくる機能という感じです。詳細は不明ですが、滑らかに複数視点のテクスチャマップをつないで補完するのはコンピュータビジョン技術を用いているとのことです。

Portrait Segmentation 機械学習屋さんの私としては、データセット作成にもアプリの性能向上にも使えると思った機能。iPhoneXの深度カメラを利用して、前景である人間領域だけ抜き取った画像を返してくれるAPI。たとえばこれを利用すれば背景の影響を除いた人間のデータセットが作れるし、あるいは個人認証のようなアプリケーションでも背景を除いてから実行できるのでロバストになる、と、応用先がかなりある技術と感じました。アプリケーションとしては、背景を差し替えるとか、顔を半透明にしてホログラム風とか、ってのをデモしてました。

誰でも、そして高速に、機械学習

CreateML Something native, Something swifty. Swiftで書かれた機械学習フレームワーク。機械学習フレームワークとしてはかなり高級なフレームワークのようで、よく知られたモデルを自前のデータで学習したい、というような用途に向いているように感じました。Nvidia Digitsとかを思い出しました。たとえば私の所属するDwango Media Villageで論文を書くための実験に使うには少し高級すぎるんじゃないかな、とは思います。面白いのは、ディープラーニング一辺倒ではなくRandomForestなどもきっちりカバーしてること。CoreMLはすでにtensorflowやONNX(chainerやmxnetなどから変換可能)やscikit-learnなどのモデルを利用することが出来るけれど、やっぱりswiftで書かれててswiftで使えるってとこを推してるんじゃないかなって思います。ちなみにturiという今はapple傘下のフレームワークもあって、これはpython用のものとなってます。turiも割と高級な機能がメインで、appleはそういうユーザー向けに機械学習機能を開発していくのかなと感じました。

Weight Quantization しれっとCoreMLにモデル圧縮機能が入った、これはとても印象深かかったです。モバイル向け機械学習業界ではたしかに激しく研究されている分野なので。float32で表現されてるResnet50のモデルをuint4に量子化してたった14MBでもある程度の精度を保つことが出来る、というデモをしていました。学習フレームワークからfloatでモデル吐き出して、coreml toolで圧縮して、iPhoneで使う、という流れが作られています。なお、精度が変わらない、というのをプレゼン映えさせるのにStyle Transferの例を出して、floatのモデルと見た目が変わらないことをデモしていて、とてもわかり易いなーーーって思いました(2bitまで圧縮すると流石に崩れる)。

0 件のコメント:

コメントを投稿