Adversarial Multimodal Representation Learning for Click-Through Rate Predictionを読む

概要

CTR予測を行うMultimodal Adversarial Representation Network (MARN) を提案。 最初にmultimodal attention networkはモーダル固有の特徴量から、アイテム毎にモーダルの重みを算出する。 次にmultimodal adversarial networkがモーダル不変の分散表現を学習する。 最後にモーダル固有の分散表現とモーダル不変の分散表現を組み合わせ、アイテムごとの分散表現を得る。

公開データセットでSOTAを達成し、運用中のECにデプロイしてonline A/Bテストで改善を確認した。

contribution

  • The proposed MARN introduces a novel multimodal representation learning method for multimodal items, which can improve the CTR prediction accuracy in E-commerce.
  • We explore the complementarity and redundancy of modalities by considering modality-specific and modality-invariant features differently. To achieve discriminative representations, we propose a multimodal attention fusion network. Moreover, to achieve common representations across modalities, we propose a double-discriminators multimodal adversarial network
  • We perform extensive experiments on both public and industrial datasets. MARN significantly outperforms the state-ofthe-art methods. Moreover, the approach has been deployed in an operational E-commerce system and online A/B testing further demonstrates the effectiveness.

Accepted to WWW 2020

著者

  • Xiang Li (Alibaba Group, Hangzhou & Beijing, China)
  • Chao Wang (Alibaba Group, Hangzhou & Beijing, China)
  • Jiwei Tan (Alibaba Group, Hangzhou & Beijing, China)
  • Xiaoyi Zeng (Alibaba Group, Hangzhou & Beijing, China)
  • Dan Ou (Alibaba Group, Hangzhou & Beijing, China)
  • Bo Zheng (Alibaba Group, Hangzhou & Beijing, China)

リンク

[2003.07162] Adversarial Multimodal Representation Learning for Click-Through Rate Prediction

INTRODUCTION

モーダル固有:1つのモーダルにしか存在しない情報で、動的な重みを与えられるべきなもの
モーダル不変:異なるモダリティで冗長な情報で、重みが固定されるべきもの

商品名からHot Pinkのような色はわかるが、糸のような素材は画像からしかわからない。素材はモーダル固有の特徴量で、色はモーダル不変の特徴量といえる。

キーアイデアとして、モーダル固有の特徴量は異なるモーダル間の動的な重要度を探すために重要で、モーダル不変は固定的な重要度で商品の包括的な分散表現で追加知識として使える

Adversarial Transfer Learning

GANを参考にした転移学習らしい。 著者が提案するのは、複数モーダルで共通の潜在空間を学習する2重の識別器を用いたAdversarial Network

OUR PROPOSED METHOD

提案手法のMARNは2つのコンポーネントから成る

  • Modality Embedding Layer (こっちはモーダル固有のEmbeddingを行う?)
  • Downstream Application Network (こっちは全アイテムを使って包括的に学習し、複数モーダル共通の分散表現を作る?)

f:id:wwacky:20200803074449p:plain
Figure 1. Adversarial Multimodal Representation Learning for Click-Through Rate Predictionより引用

Modality Embedding Layer

Item Modality Embedding

4つのモーダルを対象にする

  • ID:商品ID、ショップID、ブランドID、カテゴリIDを含んだ未注文の離散特徴量
  • Image :ピクセルレベルの画像情報
  • title:単語列
  • statistic :統計値、表示履歴、クリック、注文や金額のトランザクション

IDs
複数IDをconcatしてmulti-hot vectorとして扱う。それぞれEmbedding Layerでベクトルに変換する。

Image
VGG16のクラス分類用の最終2層を除外したものを使う

title
単語毎に300次元のベクトルに変換する。EmbeddingにはKimの既往研究に従って、convolutional Networkでn-gramの特徴量を取得するためにウィンドウサイズをn=2,3,4にした複数フィルターを使って行う。

Statistic
難しいらしい。Yuanfeiの既往研究に従い、1つではなく2つに離散化する(8次元の2つのベクトルにする。)。商品の数に応じて0-9か0-99のレンジで離散化するらしい。おそらく、この10個か100個の2x8次元のベクトルを作っておき、各データがどの2x8ベクトルに対応するのかlook upする感じと思われる。

Behavior Property Embedding

click, add-to-cart, purchaseのシーケンスをone-hotベクトルにする。これをembeddingする

Multimodal Attention Network

モーダルのconcatnateは、モーダル間でウエイトが一緒。 動的なウエイトは過去にも既往研究があるが、冗長な情報は除外されるべき。

256次元のベクトルにするらしいが数式がよくわからない

s_i^ m = S_m (e_i^ m):モーダル固有の特徴量。256次元

c_i^ m = I(e_i^ m):モーダル不変の特徴量。256次元

e_i^ m:アイテムi, モダリティmのベクトル。256次元?

S_m(・):モダリティ固有の特徴量を取得するための写像

I(・):モダリティ不変の特徴量を取得するための写像

MAF:multimodal attention fusion 数式(2)(3)を見ると、Figure 2のelement-wise + はアテンション込で足している様に読める

f:id:wwacky:20200809050159p:plain
Figure2. Adversarial Multimodal Representation Learning for Click-Through Rate Predictionより引用

Multimodal Adversarial Network

adversarial learningやGradient reversal layer (GRL)、domain adaptation、を先に読んだ方が理解しやすかった。
domain adaptationはDomain-Adversarial Neural Network (DANN)の解説で出てくる。

Adversarial Learningってなんだ - 面白いデータを探して
Gradient Reversal LayerではじめるPyTorchカスタム関数 | AI tech studio
Domain Adversarial Neural Networksの解説 - Counterfactualを知りたい

Cross-Modal Adversarial

minimax game

Jensen-Shannon divergence (JSD)

Double-Discriminators Multimodal Adversarial

For example, the item ID embedding should be assigned relatively small weights due to the uniqueness. On the contrary, the image and title embeddings that involve much potential common subspace should be emphasized for further confusing the modality discriminator.

double-discriminators multimodal adversarial (DDMA) network

First, we expand the original one-to-one adversarial paradigm to multimodal scenarios. Second, we introduce a double-discriminators strategy

first discriminator D_0:モーダル不変の特徴量からMクラス分類を行う?モーダル横断の潜在空間からモーダル不変の特徴量を識別する。モーダル不変の特徴量を識別することは2nd Discriminatorを混乱させる。この識別というのをImportanceの予測でやるということか?

second discriminator D_1:Mクラス分類。モダリティ間のJSDをへらすように学習。

第1の識別器は、複数のモダリティにまたがる共通潜伏部分空間に潜在するモダリティ不変特徴を識別し、さらに第2の識別器を混乱させるために識別されたモダリティ不変特徴を強調する 一方、第2の識別器は、複数のモダリティにまたがる共通の潜在部分空間を学習するように、モダリティ間の知識伝達を駆動する。

f:id:wwacky:20200809052316p:plain
Figure 3. Adversarial Multimodal Representation Learning for Click-Through Rate Predictionより引用

Modality-Specific Discriminator

ここでモダリティ固有の特徴量と、モダリティ不変の特徴量を得る。element-wise summationでアイテムの分散表現を得る。

複数のモダリティ間でモダリティ固有の特徴s m iを識別できるようにするために、モダリティ固有の特徴に対してモダリティ固有のモダリティ識別器Dsを提案し、その識別行列を第2の識別器D1と共有する。最後に、複数のモダリティの相補性と冗長性を実現し、モダリティ固有表現siとモダリティ不変表現ciを生成する。そして、モダリティ固有表現とモダリティ不変表現の要素ごとの和によって、マルチモーダル項目表現repiが生成される。

Downstream Application Network

Behaviors Integrating Layer

RNNベースのモデルを使う。 ユーザ行動間の依存をモデリングするためにGRUを使う。 GRUは2つ不足しているものがあり、異なる行動のタイプや時間変化によってユーザの興味が異なること、候補商品をクリックしたかどうか???

Attentional Property GRU (APGRU)を提案。

CTR Prediction Layer

point-wise loss for the CTR task

最初にCTRのLossを最小化する(予測全体のパフォーマンスを最適化するため)。 2番めにDsのLossを最小化する(モーダル固有の写像Smを学習するため。Embedding LayerEを更新するためにDsの勾配はバックプロパゲーションしない) 3番めにFirst Discriminator D0のLossを最小化する(複数モーダルに渡る潜在共通サブスペースを特定するため)。D0はウエイトがないモーダル不変の特徴量を学習しているから良い指標でないため、不変の写像層Iを更新するためにD0のバックプロパゲーションは行わない。 最後にsecond discriminator D1がminimax gameをモーダル不変の特徴量とともにIを更新するために行う。

IとD1の間でminimax gameを解くことで、 gradient reversal layer (GRL)を通してend-to-endのアーキテクチャを適用する。

EXPERIMENTS

Datasets and Experimental Setup

Amazon Dataset

ユーザの行動シーケンスから次の行動を予測する。
商品の属性にはItem ID, category ID, title, image feature, statisticを用いる。
タイトルの単語はGloVeを用いて300次元のベクトルにする。
画像は学習済みVGG16を用いてベクトルにする。

Taobao Dataset

Taobao検索システムのexposureとクリックログ。CTRタスク用。
ユーザの行動種類はclick, add-to-cart, purchase。
商品の属性はitem ID, shop ID, brand ID, category ID, image feature(VGG16), statistic, title。
これとユーザ行動と時間がセットになっている。

7日分のデータを学習に使い、その翌日のデータを評価用にする。

f:id:wwacky:20200809055530p:plain
Table 1. Adversarial Multimodal Representation Learning for Click-Through Rate Predictionより引用

AmazonとTaobaoでembedding後の次元数は同じ。
Item ID:32次元 shop ID:24次元 Brand ID:24次元 Category ID:16次元

ボキャブラリーサイズはデータセットの統計値から決める。

予測層の隠れユニットは検証のために固定値としてAmazonは[128,64]、Taobaoは[512,256]。
活性化巻数はReLU。
Amazonのバッチサイズは32、Taobaoは1024。
最適化はAdaGradを使用し、学習率は0.1。
λは0からλ0までスケジューリングして変更させる。λ0は0.01から1.8までMARNで実験して、0.05が最もよいパフォーマンスだった。

Offline Comparison of Different Methods

3グループ9手法と比較する
第1グループ:DeepNetwork以前の手法
第2グループ:アイテムの複数モーダルの特徴量をconcatする手法
第3グループ:様々な手法を用いて複数モーダルから統一的な分散表現を学習するSOTAのマルチモーダル手法

第1グループ
LR:Logistic Regression
FM:Factorization Machine

第2グループ
YoutubeNet:Youtubeの動画レコメンドを目的としたDeep model。ユーザ行動中のアイテムのEmbeddingの単純な平均で分散表現を得る。
xDeepFM:explicitとimplicitの両方の交互作用を高次元特徴量として自動で学習することを目的としたcompressed interaction network
DUPN:LSTMとattentionをユーザ行動のモデリングに適用したECでのユーザ分散表現を学習する手法
DIEN:2層のRNNとattentionを持つNetwork。attentionによって2層目のユーザの相互作用を扱う。

第3グループ
DMF:階層的なマルチモーダル結合ネットワーク。レイヤー間でモーダルごとの分散表現が相関しており、shared layerは同一階層内の相関だけでなく、下層にも依存している
MMSS:画像情報から選択的に画像をフィルターするモーダルベースのattention mechanism model
NAML:ニュースの異なるビューとしてtitle, body, categoryを組み込み、重要なニュースのビューを選択するアテンションに適用し、有用なニュース分散表現を学習する

第1グループはID特徴量が入力(item ID, shop ID, brand ID, category ID)になる。 Deep手法はすべてMARNと同じ入力を与えて平等な比較を行う。

Results on Amazon and Taobao Datasets

5回の平均で評価。
MARNが最も良い。検定しても優位な差がある。
グループ2よりグループ3の方が性能が良い。モーダルの結合方法が重要であることがわかる。

第3グループの中でなぜMARNの精度が優れているのか?
DMFは異なるモーダル間の貢献を無視するようなconcatnation-based methodと同じであるかもしれない。
MMSSも画像を選択的にフィルターするので、画像を効果的に使えてない。
NAMLはアテンションで性能を上げているが、モーダル固有とモーダル不変を考慮して情報の相補性や冗長性を考慮できていない。

f:id:wwacky:20200815141420p:plain
Table 2. Adversarial Multimodal Representation Learning for Click-Through Rate Predictionより引用

文献39ではDINはYoutubeNetよりAUCで1.13%改善し、オンラインCTRは10.0%改善したと報告している。AUCのちょっとした改善はCTRの大きな改善につながる。

Ablation Study

BaseModel:1モーダルをGRUで行動embeddingを結合するモデルBaseModel+IDsとBaseModel-Imageがある
BaseModel+Conc:全モーダルの写像済み特徴量(IDs, image, title, statistic)を要素間で足し上げる手法
BaseModel+MAF:MAF=multimodal attention fusion network。MARNのサブモデル
BaseModel+MAF+ADV:ADV=adversarial transfer network。MARNのサブモデル
BaseModel+MAF+DDMA:DDMA=double-discriminators multimodal adversarial network。MARNのサブモデル。
MARN:MAF, DDMA, attention propertyGRU(APGRU)を用いたモデル。

BaseModel+IDs vs BaseModel+IMAGE vs BaseModel+CONC
モーダルが多いほうがAUCが高い

BaseModel+CONC vs BaseModel+MAF
MAFの方がCONCより精度が高いので、モーダルごとにウエイトを動的にする(attentionを用いる)ことは有用

BaseModel+MAF+ADV vs BaseModel+MAF+DDMA
original adversarial network(ADV)よりdoubule-discriminators multimodal adversarial network(DDMA)の方がAUCが高い。これはmultimodal adversarial learningによってモーダルをまたいだ共通の潜在部分空間で学習を行うことが効果的であることを示している。また,第1の識別器によって識別されたモダリティ不変の特徴を強調し、第2の識別器をさらに混乱させることが、複数モーダルにまたがる潜在部分空間でより良い学習するために重要であることを示している。

f:id:wwacky:20200815142912p:plain
Table 3. Adversarial Multimodal Representation Learning for Click-Through Rate Predictionより引用

Item Representations Validation

Generalization on Unpopular Items

Taobaoデータセットの商品をinteractionの頻度に応じて商品を10個のレベルに分割。popularityが高いほどより人気(9のほうが人気)。
人気がある商品では両方とも良い性能。差が少ない(levelが7-9)。人気がない商品では性能が低下する(lebelが0-3)。
MARNの方が性能の低下が抑えられているのは、titleやimageの情報を使うからかもしれない。

f:id:wwacky:20200816091216p:plain
Table 4. Adversarial Multimodal Representation Learning for Click-Through Rate Predictionより引用

Transfer from Seen Items to Unseen Items.

コールドスタート問題。 item-based CF (Collaborative Filtering) は履歴がないとランダムと同じ状態になる。
BaseModel+IDsはbrandIDとShopIDが使える。MARNだと更にtitleとimageが使える。
MARNの性能が良い。

f:id:wwacky:20200816092903p:plain
Table 5. Adversarial Multimodal Representation Learning for Click-Through Rate Predictionより引用

Case Study of Multimodal Attention

Taobaoデータセットで、カテゴリ毎に各モーダルのL2ノルムの平均を計算する。
画像は洋服、靴、ジュエリーでの重みが大きい。一方statisticは携帯電話や食料品で高い。
MARNがモーダルの重みを動的にうまく学習していることが分かる。

f:id:wwacky:20200816094053p:plain
Figure 4. Adversarial Multimodal Representation Learning for Click-Through Rate Predictionより引用

Empirical Analysis of Adversarial Network

Modality Visualization

Fig 5(a):モーダル固有の特徴量がうまく分離できている。modality discriminatorがモーダル固有の特徴量から冗長性を排除し、モーダルの識別性能が高いことを示している。
Fig 5(b):著者ら的にはtitleとimageの特徴量が近くなって、titleとimageで同じように学習しようとしているらしい。
Fig 5(c):赤が画像のモーダル固有特徴量、青がタイトルのモーダル固有の特徴量。緑が画像とタイトルのモーダル不変の特徴量をmax-poolingしたもの。3つがうまく分離できており、MARNがモーダルの相補性と冗長性を学習している事がわかる。

f:id:wwacky:20200816095251p:plain
Figure 5. Adversarial Multimodal Representation Learning for Click-Through Rate Predictionより引用

Convergence and Parameter Sensitivity

Figure 6(a):lossの変化。adversarial lossが上昇しているのは、モーダル不変の特徴量からモーダルの識別ができなくなっていることを意味する(モーダル不変特徴量とモーダル固有特徴量がうまく分離できているということ?)。
Figure6(b):Taobaoデータセットでのハイパーパラメータλ0のチューニング。0.05が適切なバランス。λはモーダル固有とモーダル不変の学習手順をコントロールするパラメータ。

f:id:wwacky:20200816095343p:plain
Figure 6. Adversarial Multimodal Representation Learning for Click-Through Rate Predictionより引用

Online Evaluation

Online Metrics

Taobao search SystemでABテスト。1ヶ月実施。
CTRとGMV(Fross Merchandise Volume)で評価。
YoutubeNetに対する相対値でのみ報告。
DUPNは以前オンラインにサービングしていたモデル。MARNの方が性能が良く、既にMARNはオンラインにデプロイされている。

f:id:wwacky:20200816103458p:plain
Table 6. Adversarial Multimodal Representation Learning for Click-Through Rate Predictionより引用

Online Serving

ピークタイムでは秒間20万以上のユーザが訪れる。
MARNは複雑だが、事前に抽出できる。
LSTMのために量子化して推論を高速化、GPU、ALI-FPGAs(行列演算を加速させるもの)を含めたheterogeneous calculationsを行っている。最終的にこれらの技術を最適化することで実質シングルマシンのQPSが2倍になる。

CONCLUSIONS

メモ

Previous works either concatenate the multiple modality features, that is equivalent to giving a fixed importance weight to each modality; or learn dynamic weights of different modalities for different items through technique like attention mechanism

過去の研究ではマルチモーダルの特徴量をconcatするのは、「各モーダルに固定のウエイトを設定すること」や「アテンションを使ってアイテムごとにモーダル毎のウエイトを動的に学習すること」と同等である。 →でも正確なウエイトを求めることができないかもしれない

To leverage the multiple modalities for better item representations, a straightforward way [20, 38, 39] is to concatenate the multiple modality features, which is equivalent to giving a fixed importance weight to each modality regardless of different items.

modality-specific (exist in one modality, and should have dynamic weights) modality-invariant features (redundant in different modalities, and should have fixed weights)

モーダル固有:1つのモーダルにしか存在しない情報で、動的な重みを与えられるべきなもの モーダル不変:異なるモダリティで冗長な情報で、重みが固定されるべきもの

例 Take a dress which is displayed by an image with a title 「Girls Ballet Tutu Zebra Hot Pink」 for example. The item involves a latent semantic feature of the material, such as yarn, which can be expressed by its image while not involved in its title, so the material feature is considered as the modality-specific (latent) feature for this example. The item also involves a common latent semantic feature of color (hot pink) in the subspace of both its image and title features, so the color feature is considered as the modality-invariant (latent) feature for this example.

商品名からHot Pinkのような色はわかるが、糸のような素材は画像からしかわからない。素材はモーダル固有の特徴量で、色はモーダル不変の特徴量といえる。

The key idea is that modality-specific features provide an effective way to explore dynamic contributions of different modalities, while modality-invariant features should have a fixed contribution and can be used as supplementary knowledge for comprehensive item representations.

キーアイデアとして、モーダル固有の特徴量は異なるモーダル間の動的な重要度を探すために重要で、モーダル不変は固定的な重要度で商品の包括的な分散表現で追加知識として使える