前言 本文主要内容总结于TPAMI综述文献, 笔者附加相关方向最新论文和分析。Paper: Multimodal Machine Learning: A Survey and Taxonomy。
模型部署交流群:732145323。用于模型部署、高性能计算、优化加速、技术学习等方面的交流。
QQ综合交流群:470899183。用于日常入门、科研、学习、就业等方面的交流。
-
表征。如何挖掘模态间的互补性或独立性以表征多模态数据。 -
翻译。学习一个模态到其他模态的映射。例如:image captioning。 -
对齐。将多模态数据的子元素进行对齐。例如phrase grounding任务:将一幅图中的多个物体与一段话中的短语(或单词)进行对齐。在学习表征或翻译时也可能隐式地学习对齐。 -
融合。融合两个模态的数据,用来进行某种预测。例如:Visual Question Answering需融合图像和问题来预测答案;Audio-visual speech recognition需融合声音和视频信息用以识别说话内容。 -
共同学习(co-learning)。模态间的知识迁移。使用辅助模态训练的网络可以帮助该模态的学习,尤其是该模态数据量较小的情况下。
0. 应用
-
图像/视频与语言预训练。 -
跨任务预训练
-
Text-to-Speech Synthesis: 给定文本,生成一段对应的声音。 -
Audio Captioning:给定一段语音,生成一句话总结并描述主要内容。(不是语音识别)
-
Audio-Visual Speech Recognition(视听语音识别):给定某人的视频及语音进行语音识别。 -
Video Sound Separation(视频声源分离):给定视频和声音信号(包含多个声源),进行声源定位与分离。 -
Image Generation from Audio: 给定声音,生成与其相关的图像。 -
Speech-conditioned Face generation:给定一段话,生成说话人的视频。 -
Audio-Driven 3D Facial Animation:给定一段话与3D人脸模版,生成说话的人脸3D动画。
-
Image/Video-Text Retrieval (图(视频)文检索): 图像/视频<–>文本的相互检索。 -
Image/Video Captioning(图像/视频描述):给定一个图像/视频,生成文本描述其主要内容。 -
Visual Question Answering(视觉问答):给定一个图像/视频与一个问题,预测答案。 -
Image/Video Generation from Text:给定文本,生成相应的图像或视频。 -
Multimodal Machine Translation:给定一种语言的文本与该文本对应的图像,翻译为另外一种语言。 -
Vision-and-Language Navigation(视觉-语言导航):给定自然语言进行指导,使得智能体根据视觉传感器导航到特定的目标。 -
Multimodal Dialog(多模态对话):给定图像,历史对话,以及与图像相关的问题,预测该问题的回答。
-
Visual Grounding:给定一个图像与一段文本,定位到文本所描述的物体。 -
Temporal Language Localization: 给定一个视频即一段文本,定位到文本所描述的动作(预测起止时间)。 -
Video Summarization from text query:给定一段话(query)与一个视频,根据这段话的内容进行视频摘要,预测视频关键帧(或关键片段)组合为一个短的摘要视频。 -
Video Segmentation from Natural Language Query: 给定一段话(query)与一个视频,分割得到query所指示的物体。 -
Video-Language Inference: 给定视频(包括视频的一些字幕信息),还有一段文本假设(hypothesis),判断二者是否存在语义蕴含(二分类),即判断视频内容是否包含这段文本的语义。 -
Object Tracking from Natural Language Query: 给定一段视频和一些文本,进行 -
Language-guided Image/Video Editing: 一句话自动修图。给定一段指令(文本),自动进行图像/视频的编辑。
-
Affect Computing (情感计算):使用语音、视觉(人脸表情)、文本信息、心电、脑电等模态进行情感识别。 -
Medical Image:不同医疗图像模态如CT、MRI、PET -
RGB-D模态:RGB图与深度图
1. 多模态表征
-
Joint结构注重捕捉多模态的互补性,融合多个输入模态 x1,x2x_1, x_2 x_1, x_2 获得多模态表征 xm=f(x1,…,xn)x_m = f(x_1, …, x_n)x_m = f(x_1, …, x_n) ,进而使用 xmx_mx_m 完成某种预测任务。网络优化目标是某种预测任务的性能。 -
Coordinated结构并不寻求融合而是建模多种模态数据间的相关性,它将多个(通常是两个)模态映射到协作空间,表示为:f(x1)∼g(x2)f(x_1)\sim g(x_2)f(x_1)\sim g(x_2) ,其中~表示一种协作关系。网络的优化目标是这种协作关系(通常是相似性,即最小化cosine距离等度量)。
2. 跨模态翻译
-
举例法(example-based)。模版法的特征是借助于词典(dictionary)进行翻译,词典一般指训练集中的数据对 {(x1,y1),…,(xN,yN)}{(x_1, y_1),…,(x_N, y_N)}{(x_1, y_1),…,(x_N, y_N)} 。给定测试样本 x^\hat{x}\hat{x} ,模版法直接检索在词典中找到最匹配的翻译结果 yiy_iy_i ,并将其作为最终输出。此处的检索可分为单模态检索或跨模态检索。单模态检索首先找到与 x^\hat{x}\hat{x} 最相似的 xix_i x_i ,然后获得 xix_ix_i 对应的 yiy_iy_i 。而多模态检索直接在 {y1,…,yN}{y_1, …, y_N}{y_1, …, y_N} 集合中检索到与 x^\hat{x}\hat{x} 最相似的 yiy_i y_i ,性能通常优于单模态检索。为进一步增强检索结果的准确性,可选择top-K的检索结果 {yi1,yi2,…,yik}{y{i_1}, y{i_2},…, y{i_k} }{y{i_1}, y{i_2},…, y{i_k} } ,再融合K个结果作为最终输出。 -
生成式模型(generative)。抛弃词典,直接生成目标模态的数据。分为三个子类别: -
基于语法模版,即人为设定多个针对目标模态的语法模版,将模型的预测结果插入模版中作为翻译结果。以图像描述为例,模版定义为 who_ did what_ to whom_ in a place_ \underline{who}\ did\ \underline{what}\ to\ \underline{whom}\ in\ a\ \underline{place}\ \underline{who}\ did\ \underline{what}\ to\ \underline{whom}\ in\ a\ \underline{place}\ ,其中有四个待替换的插槽。通过不同类型的目标/属性/场景检测器可以获得who, what, whom, place等具体单词,进而完成翻译。 -
编码-解码器(encoder-decoder)。首先将源模态的数据编码为隐特征 zzz ,后续被解码器用于生成目标模态。以图像描述为例,编码器(一般为CNN+spatial pooling)将图像编码为一个或多个特征向量,进而输入到RNN中以自回归的方式生成单词序列。 -
连续性生成(continuous generation)。它针对源模态与目标模态都为流数据且在时间上严格对齐的任务。以文本合成语音为例,它与图像描述不同,语音数据与文本数据在时间上严格对齐。WaveNet[6]采用了CNN并行预测+CTC loss解决该类问题。当然,编码-解码器理论上也可完成该任务,但需处理数据对齐问题。
3. 跨模态对齐
-
显示对齐。如果一个模型的优化目标是最大化多模态数据的子元素的对齐程度,则称为显示对齐。包括无监督和有监督方法。无监督对齐:给定两个模态的数据作为输入,希望模型实现子元素的对齐,但是训练数据没有“对齐结果”的标注,模型需要同时学习相似度度量和对齐方式。而有监督方法存在标注,可训练模型学习相似度度量。Visual grounding便是有监督对齐的任务,而weakly-supervised visual grounding是无监督对齐的任务。 -
隐式对齐。如果模型的最终优化目标不是对齐任务,对齐过程仅仅是某个中间(或隐式)步骤,则称为隐式对齐。早期基于概率图模型(如HMM)的方法被应用于文本翻译和音素识别中,通过对齐源语言和目的语言的单词或声音信号与音素。但是他们都需要手动构建模态间的映射。最受欢迎的方式是基于注意力机制的对齐,我们对两种模态的子元素间求取注意力权重矩阵,可视为隐式地衡量跨模态子元素间的关联程度。在图像描述,这种注意力被用来判断生成某个单词时需要关注图像中的哪些区域。在视觉问答中,注意力权重被用来定位问题所指的图像区域。很多基于深度学习的跨模态任务都可以找到跨模态注意力的影子。
4. 多模态融合
参考文献
若觉得还不错的话,请点个 “赞” 或 “在看” 吧
CV各个研究方向的群
目前的群有:目标检测、图像分割、transformer、遥感图像、医学图像、视频理解分析、异常检测、缺陷检测、目标跟踪、姿态估计、关键点定位、行人重识别、人群技术、自动驾驶、点云等交流群。
扫描下方二维码,备注研究方向-城市-id,即可邀请加入对应的群。
QQ交流群
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...