视觉

是机器学习的范式和方法论之一,是智能体与环境不断交互,从而不断强化自己的决策能力的过程

北大博士王逸之:面向文字的图形图像生成方法及其应用

王逸之,2022年6月毕业于北京大学王选计算机研究所,获得博士学位,导师连宙辉副教授。

ECCV 2022 | PEBAL:用于城市自动驾驶系统的异常分割模型

本文研究如何有效利用abstain learning来有效检测城市自动驾驶系统中经常遭遇的异常物体,其提出PEBAL:一个融合像素级别弃权学习abstention learning 和能量...

MAE入局多模态分析,CMU联合微软发布仅需文本监督的视觉语言新模型VLC

视觉语言Transformer(Vision-Language Transformers)一直是多模态领域中的重要研究话题。但是现有的关于视觉语言Transformer的工作仍然需要先在ImageNet上...

CVPR再起争议:IBM中稿论文被指照搬自己承办竞赛第二名的idea

CVPR 2022又被曝出关于「论文抄袭」的争议!作者已经将相关举证信息发给了CVPR的Program Chairs。在计算机视觉领域搞研究已经十多年了。我写这篇博客是为了揭...

爱可可AI前沿推介(7.3)

用数据修剪战胜神经网络幂律扩展率、生成式神经人体辐射场、逆向问题中深度学习方法的理论分析、贝叶斯因果推断的批判性综述、可复现高效协作型优化基准、基...

悉尼科技大学 | 通过交互式提示进行高效的多模式融合

【推荐理由】文章提出了一种高效灵活的多模态融合方法,可以实现与其他几种多模态大模型微调方法相当的性能。【摘要】大规模预训练技术已经将计算机视觉和自...
1 10 11 12