KDD 2019, AdKDD 参加レポート

こんにちは @hagino3000 です。去年に引き続き今年もデータマイニングの国際会議であるKDDに参加してきました。本稿は主にアドテク及びマーケティング関連の発表に焦点を当てたレポートです。

www.kdd.org

Index

なぜKDDに参加するのか

私は研究職では無くエンジニアですが、広告配信システムの開発業務で参考にする論文の多くはKDDに投稿されたものです。去年のKDDで見聞きした発表もいくつかは自社サービスのビジネス設定にあわせてプロダクトに適用しました。さらにインターネット広告に関するワークショップであるAdKDDが毎年開催されるため、広告配信システムに関る者として効率良くインプットと議論ができる事が挙げられます。

広告分野以外の発表についても、Applied Data Science Trackは問題をどう解決したかのソリューション設計が肝であるため分野を問わず学ぶところが多くあります。

Tutorial Day

KDD 2019 | Lecture-style Tutorials

初日はTutrorial Day。去年はガラガラだったA/B Testのセッションが2つもあり、かつ部屋から人が溢れる程の人気ぶりに驚きました。A/B Testはメトリクスの選定からオンライン多重検定におけるFDR(False Discovery Rate)の制御[1]まで様々な話題があり、知れば知るほどその奥の深さに気づかされます。

Challenges, Best Practices and Pitfalls in Evaluating Results of Online Controlled Experiments Fundamentals of large-scale sequential experimentation

AdKDD 2019

2日目はWorkshop Day、私は目当てのAdKDDに参加しました。

2019 Papers and Talks | AdKDD 2019

AdKDD Workshopはインターネット広告に関する招待講演と論文発表で構成されます。SSPからDSPまで様々なプレイヤーの持つ課題、例えばオークションメカニズムの設計・RTB入札ロジック・コンバージョン予測・広告クリエイティブ審査の自動化・広告効果の因果推論・オーディエンス属性推定とトピックは多岐にわたります。全ての発表の紹介は書ききれないので、いくつかピックアップします。

Tencent Ads: Interesting Problems and Unique Challenges

最も印象が強かったのは、Tencentの広告プラットフォームにおける取り組みをまとめた発表でした。広告クリエイティブの自動審査や人間の手によるターゲティング設定を自動化するといった地味な運用の話があったと思えば、動画の中に広告オブジェクトをレンダリングするVideoIn Adsの紹介が始まると会場の空気が一変します。

f:id:hagino_3000:20190815142953j:plain
Tencent Ads: Interesting Problems and Unique Challengesより

これには私も凄すぎて言葉を失いました。光源処理等で広告オブジェクトがシーンに馴染むようにしているとはいえ、現段階ではまだ違和感があります。しかし後から差しこまれた広告かどうか見分けが付かなくなるのも時間の問題だろうと感じました。トーク全体を通して現代のフルスペックな広告配信プラットフォームはこうなると、甚大な研究リソースが投入された結果であろうその姿に圧倒されました。

From the Clouds to the Trenches: Learning to Manage the Marketplace

因果推論ネタで新しかったのは Microsoft Advertising, AI & Research が広告配信のパフォーマンス結果(e.g. ROI)が広告主の行動にどの様な影響を与えるかの実験です。上手くいけば広告主の広告予算が増えるようなポリシーを広告主毎に見つけて適用できます。CPAが低く取れている時は予定よりも早く予算消化して増額提案した方が儲かるんじゃないか、みたいな反実仮想を考えるわけですね。

実験にはセンシティンブなサンプリングが必要で、反応が似ているペアを作ってTreatment群とControl群に割りふる必要があるとの事でした。負の副作用も起りうる、非常に挑戦的な実験で手に汗握りました。

f:id:hagino_3000:20190815143546j:plain
From the Clouds to the Trenches: Learning to Manage the Marketplaceより

In-app Purchase Prediction Using Bayesian Personalized DwellDay Ranking

大企業の発表が目立つ中で、京大鹿島研とサイバーエージェントの共同研究「未インストールユーザーのうちアプリ内課金をするユーザーを推定する」が地味ながらも「これはゲームアプリの広告を配信する時に欲しいと言われる奴だ……」と思いながら聴講。アプリ滞在時間を使ったBayesian Personalized Ranking。

アプリ内課金データは少なくLTV予測の難易度が高いため、課金しそうな人ランキングの問題に帰着している所が使いやすく見えました。現場のニーズっぽいネタが研究テーマになり成果として出てくる所がリスペクトポイントです。

本会議

3〜5日目は本会議。私はApplied Data Science Trackを中心に聴講しました、その中で印象に残った発表を紹介します。

マーケティングにおける逆強化学習・逆最適化

NECの TV Advertisement Scheduling by Learning Expert Intentions はTVCMのスケジューリングを行なうシステムを作った話です。配置の制約が複雑だったりフィードバックが得られない事から、配置職人の作業結果ログを元に組合せ最適化の目的関数を学習して最適化するのが面白かったです。有識者の行動を正とする所だったり、結果の説明性が高い階層クラスタリングを利用している点は伝統的な日本企業を相手にする時に役立ちそうです。

SMOILE: A Shopper Marketing Optimization and Inverse Learning Engine は小売業における実店舗内のプロモーション、デモやフライヤー配布や値引きといったマーケティング活動のプランニング最適化フレームワークです。プロモーション自体の効果(Lift)の推定値は得られるものの、プロモーション効果値と実際のプランニング(シーケンシャルな意思決定)を繋ぐ部分は複雑であるため、意思決定の部分は逆強化学習を用いて過去のプランナーの配置結果から学習するとあります。

人間の意思決定を模倣するパラメータを学習する方策は様々な応用が利きそうで注目しています。

マーケットデザイン

例えばある財を配布するのに「早い者勝ち」にするのか「抽選」にするのか「オークション」にするのか様々な手続きが考えられます。この様な手続きの中で効率が良く・生み出される価値が大きくなるものを追求する分野がマーケットデザインです。Two-Sided Fairness for Repeated Matchings in Two-Sided Markets: A Case Study of a Ride-Hailing Platform はライドシェアリングにおけるドライバーと乗客のマッチングアルゴリズムで公平性を考慮するものです。マッチングアルゴリズムは参加する人々に与えるインセンティブを変え、人々の行動を望ましい姿にする力があります。私は業務設計や値付けの際に役立つので好きな分野の1つです。

羅生門効果 (Rashomon effect)

講演を聞くまで知らなかったのですが、機械学習の分野で同じ予測を行えるモデルが複数存在する事をRashomon effectと呼ぶそうです。同じ予測性能が得られるのならばより単純なモデルを見つけて採用したい、これを行なうための方法論が最終日のKeynoteセッションに登場しました。

参考:A study in Rashomon curves and volumes: A new perspective on generalization and model simplicity in machine learning

PID制御でRTB入札最適化

DSPの広告配信システムで Bid Optimization by Multivariable Control in Display Advertising が制約にクリック1回あたりのコスト(CPC)を持つ入札金額最適化問題をシンプルなソリューションにしていました。クリック1回あたりのコストというのはオークションに入札して勝利して広告が表示された後さらにクリックが発生してようやくわかる値、遅れて得られる値です。行動(オークション入札)の後しばらくして充足しているか違反しているかわかる制約のためソルバーで静的に解ける問題ではありません。

f:id:hagino_3000:20190815144902p:plain
クリックあたりのコストと予算制約の元で獲得コンバージョン数を最大化する

これをPID制御で行なう事で非常にシンプルなソリューションになっています。オークションの入札最適化にはよく「いくらで入札したら何%で勝てるか」の勝率関数を利用します[2]。これを求めるタスクを入札ランドスケープ予測と言いますが、彼らのソリューションには登場しません (勝率無しでモデリングしている)。またこれだけで予算消化額の制御とCPCの制御が同時に出来る所が凄いなと思いました。

f:id:hagino_3000:20190815143424p:plain
Bid Optimization by Multivariable Control in Display Advertisingより

ランダムに出現しては消える蟹

四日目夜の懇親会では蟹が出ました。蟹が無くなると補充されるものの、補充された途端に人が集り蟹が消えてしまうので観測が非常に困難でした。

f:id:hagino_3000:20190807200206j:plain

全体の感想

強化学習の実用例が増えたなという印象です。Cost Per Clickの様な短期指標ではなく、広告主の長期的な指標に寄与する意思決定を行なうのに適しているとされます。自分のチームでもシミュレーターの開発からになりますが取り組みたいです。

あと開催地のアラスカは非常に涼しく、昼が長く22時を越えても明るかったので快適に滞在できました。


[1] サンプルサイズと有意水準を事前に固定して行なう古典的な仮説検定の設定とは異なるため

[2] 約定金額の分布を連続な確率分布で近似すると目的関数が扱いやすくなる。また約定金額の分布の累積関数は入札金額に対する勝率になる。