α・β・κ

カッパ的視点からものごとをまとめます。

第二回 Hivemall Meetup

今、関わっているサービスで簡易的なレコメンドみたいなものを実装したくなっている関係で、「第二回 Hivemall Meetup」に参加してきた。

eventdots.jp

回帰分析という言葉を聞いて、そういえば昔はシステムの性能とか電力のモデリングなどやってたなあ、っていうのを思い出した。そのときの経験上、業務知識を多少無理やりでもシンプルなモデル(線形モデルとか)に落としこむのが結局実用的だと思うのだが、Hivemallはそういうニーズをいい感じに満たしてくれそうに見えた。

Hivemall

もう学習モデルとか特別に記述するの大変だから、SQL(というかHive)で学習モデルも記述してしまいましょう、というアイディアで作られているOSS機械学習ライブラリ. Hive上で動作するようで使い始める敷居が低いのが売りな様子。Treadure Dataでも使えるそうで、以下のブログ記事が(英語だけど)Hivemallを使うときの雰囲気がわかりやすかった。

How to Get More Clicks for Digital Advertising: Step by Step Guide to Optimizing CTRs with Real-time Data + Machine Learning | Treasure Data Blog

利用事例

Livsenseさん、OISIXさんからサービス内でのHivemallの利用事例の発表があった。

www.ieshil.com

こちら、新規事業として最近リリースされたサービスだそうで、中古住宅の価格査定をオンラインで行えるサイトだそうです。裏でHivemallを利用して中古住宅の価格を査定しているそうです。
Hivemallを使った感想としては機械学習モデルがSQLだけで完結するのがとてもありがたい、とのこと。ただし、サービスとして意味のある結果を取り出すにはデータの前処理がかなり重要で、学習用データのチューニングは頑張る必要があるそう。まあここらへんの問題はライブラリ側ではどうしようもない気がする。 
 
 
OISIXさんでは、定期会員の中で解約する人を予測するためにHivemallを利用する予定とのこと。解約しそうな人を見つけることができれば、ポイントを付与したり、ユーザが知らないであろうサービスをレコメンドしたりして解約を防ぐことができる、でしょうという狙い。こちらの事例では、過去の解約会員の行動データをHivemallで分析することで、定期会員の解約行動を予測できそう、という話だった。発表内容は機械学習の話というよりは、事業の中で機械学習を取り入れる意味や、事業担当者の知識を以下にモデルに落とし込めるかが大事、といったプラクティカルな話題が多く非常に参考になった。そういった中で効果があるかわからないけど、とにかく一回トライアルで機械学習やってみる、ということができるのがHivemallの強みだ、という話。