2018年10月18日木曜日

データ分析をクラウドでやれば、コストは4分の1に——みずほ銀行が「BigQuery」を試して分かったこと

 昨今、FinTechなどを背景に金融業界でのデータ活用が進んでいるが、同時にデータ分析の難度も大きく高まっている。WebのアクセスログやSNSでの行動など、テクノロジーの進化によって収集、分析すべきデータは増え続けており、施策の構築までも含め、膨大な工数を取られるケースも少なくない。

 素早く有効な施策を打ちたいのに、分析に時間がかかり過ぎてしまう——メガバンクのみずほ銀行もそんな悩みを抱えていた。データの抽出からクレンジング、加工と、分析したいデータが増えれば増えるほど、その"前準備"にかかる時間も増えていくためだ。同社は、オンプレミス環境に1000人規模の社員が利用するDWH(Teradata)があるものの、データ加工などに向くツールではなく、データの増加に対応し切れなくなってきたのだという。

 「機能の拡張性や外部データとの連携などの視点で考えれば、データの加工や分析については、クラウド上で行うのが理想的だといえます」

 こう話すのは、同社の個人マーケティング推進部の山泉亘さんだ。大手複合機メーカーでクラウド化を進めてきた経験を生かし、2018年にみずほ銀行に転職。みずほ銀行でもクラウド活用を進める活動を行っている。

 データ分析基盤をパブリッククラウドへと移行することを検討している中で、GoogleのBigQueryに注目し、IT部門とPoCを共同企画。Googleに相談したところ、ちょうどBigQueryが東京リージョンで使えるようになるタイミングだったため、アルファユーザーとして参加したという。PoCを実施したのは2018年の3月のこと。社内システムからGoogle Cloud Storageにデータを手動コピーする形で行い、3つの項目を検証した。

 検証の結果、BigQuery周りについては「現状使っているTeradataと同等の性能」が得られ、Cloud Dataprepについては、データ処理方法のレコメンドなどの支援機能が有用であり、ユーザー部門自らがデータ準備ができることを確かめられたという。しかし、PoCの中でいくつか反省すべき点があったと山泉さんは話す。

 「単純なデータのロードについては、8000万レコード(約20GB)で10秒強、ETLとの連携部分での読み込みは1億レコード(約30GB)で1分強という結果が出ました。われわれはその結果で満足してしまったのですが、Googleから『もっとデータを投げないんですか?』と聞かれて初めて、テストだからと遠慮していたことに気付かされたのです」(山泉さん)

 オートスケーリング機能があるため、「データ処理が多重になっても、パフォーマンスが低下しにくいというメリットがある」と山泉さん。扱うデータ量が少なければ、このメリットは実感しにくいが、今後データ量や分析者が増えるのならば強い味方になる。BigQueryを使うことでデータ分析にかかるコストは、現行の4分の1程度にまで削減できると試算しているそうだ。

 「オンプレミスのデータ分析基盤では、計算リソースの上限に合わせた働き方になるが、クラウドであれば、計算リソースの上限から解放されて業務を集約、並列化できるようになります。空いた時間を分析の企画や計画など、より上流工程に充てることができるようになるはず。働き方改革にもつながるでしょう」(山泉さん)

 今後、みずほ銀行がBigQueryを実導入するかどうかは未定ではあるものの、クラウド活用に向けた体制作りをさらに進めていくという。

 「クラウド活用には、情報開発子会社や外部ベンダーなどの"構築組織"、IT部門など案件全体を管理する"PM(プロジェクトマネジメント)組織"、そしてクラウドの経験を通じて、ビジネスの拡大を目指す"ユーザー組織"という三者の連携が欠かせません。これらの優秀なリソースを集約し、継続的な改善が続けられる環境を作る。今後はそういった『クラウドCoE(Center of Excellence)』を構築できればと考えています」

0 件のコメント:

コメントを投稿