マルチモーダル

ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Dataを読んだ

概要 リンク pre-training用のデータセット(LAIT)の作成 data collection pipeline Architecture Pre-training Pre-training task Multi-stage Pre-training 検証結果 画像検索のタスクでの検証 Ablation Studies 概要 テキストと画像のマルチモーダルBERTの…

Supervised Multimodal Bitransformers for Classifying Images and Textを読んだ

概要 リンク Architecture 結果 検証用データセット Baseline 検証用データセットでの精度 Hard Subsetsでの検証 weightのfreezing 概要 BERTをベースにしたテキストと画像のマルチモーダルネットワークを提案。画像をResNet-152でベクトルに変換した後に、a…