Semi Supervised Meta Learning for Spatiotemporal Learning
F Waseem, P Muthukumar
[Stanford University]
半监督元学习时空学习
-
动机:在现实世界中,标签数据很难获得,而且大部分可用的数据都是以视频和视觉媒体的形式存在。尽管最近在表示学习方面的进步已经在从各种输入(包括文本、图像和视频)中学习丰富表示方面取得了巨大的成功,但是这些最先进的架构都是数据密集型的,而元学习架构则具有从多样化的训练任务和相应的标签中学习新任务的独特能力。因此,本文尝试将半监督元学习应用于视频数据,以学习时空模式。 -
方法:采用三步法来实现元学习应用于自监督掩码自编码器的目标。首先,尝试使用预训练的MAE,并在他们的小规模时空数据集上进行微调,以进行视频重建任务。接着,尝试训练一个MAE编码器,并应用一个分类头进行动作分类任务。最后,尝试使用预训练的MAE,并使用MANN骨干进行微调,以进行动作分类任务。 -
优势:实验结果显示,对自定义的小规模视频数据集进行微调,比现有的预训练MAE架构在视频重建任务上的表现要好。此外,在小规模视频数据集上,对小规模ViT骨干进行MAE编码器训练,用于动作分类任务的收敛是稳定的。最后,对预训练的MAE进行微调,并使用MANN骨干进行动作分类任务,在小规模视频数据集测试任务上是有效的。
通过将半监督元学习应用于视频数据,成功地学习了时空模式,其方法包括使用预训练的掩码自编码器进行微调,训练MAE编码器并应用分类头,以及使用预训练的MAE并使用MANN骨干进行微调。
https://arxiv.org/abs/2308.01916
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...