标签:transformer

悉尼科技大学 | 通过交互式提示进行高效的多模式融合

【推荐理由】文章提出了一种高效灵活的多模态融合方法,可以实现与其他几种多模态大模型微调方法相当的性能。【摘要】大规模预训练技术已经将计算机视觉和自...

中科大&美团提出VIRT,从交互模型中蒸馏知识,在文本匹配上实现性能和效率的平衡!

基于孪生Transformer编码器的表示模型已成为高效文本匹配的主流技术,通过注意力图提取将交互知识从基于交互的模型转移到孪生编码器,对话代理需要通过预测用...

中科大&美团提出VIRT,从交互模型中蒸馏知识,在文本匹配上实现性能和效率的平衡!

基于孪生Transformer编码器的表示模型已成为高效文本匹配的主流技术,通过注意力图提取将交互知识从基于交互的模型转移到孪生编码器,对话代理需要通过预测用...

ICLR 2022 | 基于对抗自注意力机制的预训练语言模型

使模型在被污染的模型结构中得到训练,分布的平滑)加入原始的注意力结构中。这些先验知识能够让模型从较小的语料中学习有用的知识。但是这些先验知识一般是...