环球播报:CVPR 2023 | 计算机视觉顶会亮点前瞻

2023-06-13 18:14:22 来源：互联网

（本文阅读时间：10分钟）

(资料图片仅供参考)

在知识和技术都迅速更新迭代的计算机领域中，国际计算机视觉与模式识别会议（CVPR）是计算机视觉方向的“顶级流量”，引领着学科及相关领域的研究潮流。今天我们为大家带来5篇微软亚洲研究院被 CVPR 2023 收录的论文，主题涵盖手语识别与检索、多模态生成、图像编辑、视频理解任务等。

4月，微软亚洲研究院举办了 CVPR 2023 论文分享会，点击链接直达精彩论文分享回顾。

Session1：Visual Generation

https://www.bilibili.com/video/BV17m4y187Vu/?spm_id_from=333.999.section.playall

Session2：Visual Foundation Model

https://www.bilibili.com/video/BV1UL411Y7hR/?spm_id_from=333.999.section.playall

Session3：Visual+X

https://www.bilibili.com/video/BV1Po4y1L7EM/?spm_id_from=333.999.section.playall

CiCo：基于跨语言对比学习的域可感知手语检索

论文链接：

https://arxiv.org/pdf/2303.12793.pdf

代码链接：

https://github.com/FangyunWei/SLRT

最近，手语理解领域中提出了全新的手语检索任务，包含文本-手语视频检索、手语视频-文本检索两个子任务。与传统的视频文本检索不同，手语视频不仅包含视觉信号，作为一种自然语言，它还承载着丰富的语义信息。对此，微软亚洲研究院的研究员们将手语检索同时定义为视频文本检索问题和跨语言检索问题，提出了基于跨语言对比学习的域可感知手语检索算法 CiCo。

根据手语和自然语言的语言特性，CiCo 通过对比学习的方式将文本和手语视频映射至联合嵌入空间，同时学习识别细粒度的手语到单词的跨语言映射。另外，为了缓解手语检索任务的数据稀缺问题，研究员们引入了在大规模手语视频数据集上预训练的域无关手语编码器，并生成了伪标签标注来微调编码器，从而获得适用于目标域的域可感知手语编码器。CiCo 在多个数据集上显著超越了现有方法，例如，在 How2Sign 数据集上取得了 T2V+22.4 和 V2T+28.0 的 R@1 提升。研究员们希望 CiCo 可以成为手语检索中可靠的基准模型。

图1：CiCo 的模型框架

自然语言辅助的手语识别

论文链接：

https://arxiv.org/abs/2303.12080

代码链接：

https://github.com/FangyunWei/SLRT

广泛应用于聋哑人群体的手语是一种通过视觉信号传递信息的语言。然而，大量视觉上相似的手势极大地限制了手语识别模型的准确率。虽然这些手势难以只凭眼力区分，但它们的文本标签（通常为一个单词）却可以提供更多有用的信息。因此，研究员们提出了自然语言辅助的手语识别模型（NLA-SLR）。

首先，对于语义相似的手势，研究员们提出了自然语言感知的标签平滑。如图2（a）所示，在训练过程中计算当前手势标签与词汇表中每个标签的语义相似度，并根据相似度向量生成软化标签作为优化目标。这一技术能够有效正则化模型，降低训练难度。其次，对于语义差别大的手势，研究员们提出了跨模态混合，如图（b）所示通过将训练过程中模型的视觉特征与词汇表中的文本特征一一混合，并设计相应的跨模态混合标签，能够在自然语言的帮助下提高手势的可分性，从而提升模型性能。最后，经过三个广泛使用的标准数据集中的验证， NLA-SLR 均达到了最高的识别准确率。

图2：（a）基于语义相似性的标签平滑；（b）跨模态特征混合。

MM-Diffusion：生成音视频的双模态扩散模型

论文地址：

https://arxiv.org/abs/2212.09478

代码地址：

https://github.com/researchmm/MM-Diffusion

近年来，扩散模型已经在图像、视频、音频等领域取得了显著的成果。但是目前的研究主要聚焦在视觉或听觉的单模态生成，这样生成出来的内容与真实网络世界的视频依然有较大差距，不符合人们的视听习惯。同时，从研究的角度出发，视频和音频在时序上也是天然对齐的。因此，这篇工作旨在探索音视频双模态同时生成的新方法。研究员们提出了基于双流 U 形网络的多模态扩散模型 MM-Diffusion。该方法不仅在音视频单模态质量的对比超过了当前的最佳方法，还在同步生成视频-音频任务中验证了能提高声、画各自模态的生成质量。

图3：视频-音频生成样例

MM-Diffusion 首先将只能构建单个分布的扩散模型机制扩展到构建多个分布（如图4所示）。由于音视频分布的形状不同、模态差异较大，前向扩散过程的加噪处理需要独立进行，但由于音视频的相关性，反向逆扩散过程则采取了一个统一的音视频模型同时降噪双模态。

图4：MM-Diffusion 示意图

为了构建适配音视频的统一降噪模型，研究员们提出了双流 U 形网络。如图5所示，双流 U 形网络由音频子网络和视频子网络构成。音频子网络以空洞卷积为主要结构，对音频一维波形数据进行长时序建模；视频子网络采用二维一维卷积层和二维一维注意力机制，对视频三维数据进行时空建模。之后，在若干相交节点对两支子网络做跨模态对齐。然而由于音视频两个模态的像素空间都非常巨大，直接使用跨模态注意力机制对齐并不现实。为此，研究员们设计了基于随机偏移的注意力机制，用局部的注意力机制的运算类推，进而起到全局对齐的效果。

图5：双流 U 形网络模型图

研究员们在不同的数据集上验证了 MM-Diffusion。实验证明，不论是客观指标还是主观评测，MM-Diffusion 均超过了之前可复现单模态生成的 SOTA。该工作同时还证明了对比单模态生成，两个模态同时生成质量会更高，除此之外，研究员们进一步验证了 MM-Diffusion 具备 zero-shot 条件生成的能力（输入视频生成对应音频或反之）。

基于样例的图像编辑

论文链接：

https://arxiv.org/pdf/2211.13227.pdf

代码链接：

https://github.com/Fantasy-Studio/Paint-by-Example

许多最新的研究成果在基于文本的图像编辑领域都取得了巨大成功。然而，就像俗语所说“一图胜千言”，相比文本，图像能够更加形象、直接地表达用户所期待的图像编辑结果。因此，研究员们首次探索了基于参考图像的图像编辑任务，以实现更精确的图像编辑。

为了实现这个目标，研究员们通过自监督的训练方式解耦和重组原始图像与参考图像。然而，直接重组会导致生成结果含有明显的伪影。研究员们分析了出现伪影的原因，并且提出了一个压缩瓶颈和强大的数据增广策略，以避免网络直接复制和粘贴参考图像。同时，为了保证编辑过程的可控性，研究员们为参考图像设计了一个任意形状的掩膜，并利用 Classifier-free guidance 来提升生成结果与参考图像的相似度。在使用时，整个框架仅需要一次扩散模型的去噪过程，无需任何迭代优化。研究员们证明了该方法性能的优越，且能够在真实世界的图像上进行可控的高保真编辑。

图6：根据示例进行编辑可自动地将参考图像融合到源图像中，从而达到高质量的编辑效果

流式视频模型

论文链接：

https://arxiv.org/abs/2303.17228

代码地址：

https://github.com/yuzhms/Streaming-Video-Model

视频理解包含基于序列（sequence-based）和基于帧（frame-based）两类任务，它们通常分别采用两种独立架构进行建模。基于序列的视频任务（如动作识别）使用视频主干网络直接提取时空特征，而基于帧的视频任务（如多目标跟踪，MOT）则依赖于图像主干网络提取空间特征。相较之下，研究员们提出了一个统一了视频理解任务的新颖的流式视频架构（Streaming Video Model）,该架构既解决了视频主干网络因显存消耗无法处理长视频的问题，又弥补了图像主干网络在时序建模方面的不足。

具体而言，本文的流式视频模型由一个时序感知空间编码器（temporal-aware spatial encoder）和一个与任务相关的时序解码器（temporal decoder）组成。编码器为每个视频帧提取包含时序信息的空间特征，而解码器则负责将帧级特征转换为基于序列任务的特定输出。与使用图像主干网络的基于帧的架构相比，流式视频模型的时序感知空间编码器利用了来自过去帧的附加信息，提升了特效的强度和稳健性。与使用视频主干网络的基于片段的架构相比，流式视频模型分离了帧级特征提取与片段级特征融合，减轻了计算压力，同时适用于更灵活的使用场景，如长视频推理或在线视频推理。本文的模型基于视觉 Transformer 构建，其中帧内使用自注意力（self-attention）以提取空间信息，帧间使用跨注意力（cross-attention）以融合时序信息。

文章中提出的流式视频模型在 Kinetics400, Something-Something v2 等动作识别数据集上取得了 SOTA 的性能，在 MOT17 多目标跟踪数据集上也取得了有竞争力的结果。这些实验都证明了流式视频模型在两类任务上的通用性和有效性。

图7：流式视频模型的示意图（左侧），以及与传统的基于帧的架构和基于片段的架构进行的比较（右侧）

随着人工智能技术的快速发展，确保相关技术能被人们信赖是一个需要攻坚的问题。微软主动采取了一系列措施来预判和降低人工智能技术所带来的风险。微软致力于依照以人为本的伦理原则推进人工智能的发展，早在2018年就发布了“公平、包容、可靠与安全、透明、隐私与保障、负责”六个负责任的人工智能原则（Responsible AI Principles），随后又发布了负责任的人工智能标准（Responsible AI Standards）将各项原则实施落地，并设置了治理架构确保各团队把各项原则和标准落实到日常工作中。微软也持续与全球的研究人员和学术机构合作，不断推进负责任的人工智能的实践和技术。

在进行计算机科研工作和学习的日日夜夜，你或许有些科研中的问题难以开口问询，或许有些焦虑与情绪无处安放，或许在感到迷茫时需要咨询与支持。微软亚洲研究院树洞计划现已开启。你在计算机领域科研、学习、生活中遇到的难题，都可以随时随地倾倒在树洞里。后台会从树洞收到的内容中选择具有代表性的问题匹配到最同频的频道，邀请微软亚洲研究院的研究员们帮忙回答。作为一个半透明的树洞，部分问题与回应会通过微软亚洲研究院账号公开发表。

快来点击上图链接，把你的难题倾倒在树洞里吧！让我们将这些困难封存在过去，轻装上阵，继续科研新旅途！

你也许还想看：

标签：

上一篇 : 今热点：央行：5月末社会融资规模存量为361.42万亿元同比增长9.5%

下一篇 : 最后一页

推荐阅读

环球播报:CVPR 2023 | 计算机视觉顶会亮点前瞻

（本文阅读时间：10分钟）在知识和技术都迅速更新迭代的计算机领域中，

06-13 18:14:22

今热点：央行：5月末社会融资规模存量为361.42万亿元同比增长9.5%

今日，人民银行网站发布2023年5月社会融资规模存量统计数据报告。初步

06-13 17:44:51

发改委：6月13日24时起国内汽、柴油价格每吨分别降低55元和50元

证券时报网讯，发改委：根据近期国际市场油价变化情况，按照现行成品油

06-13 17:11:04

国家助学贷款累计发放超4000亿元惠及2000多万名学生

消息（新闻联播）：记者从教育部获悉，国家助学贷款自1999年实施至今，

06-13 17:01:49

最新快讯!TES让一追二成功翻盘WBG，仁川3C相聚再度拉满话题！

双方来到决胜局，可能由于第二把TES打出了手感，在决胜局的时候选人明

06-13 16:42:26

【当前独家】信用记录关爱日｜个人信用报告是什么？如何维护良好信用记录？

2023年6月14日是全国第16个信用记录关爱日个人信用报告是什么？如何维

06-13 16:02:20

第二届“太空农业·未来田园”主题科普活动在西安举行全球新视野

科技日报记者史俊斌6月10日，第二届“太空农业·未来田园”的科普活动

06-13 15:55:46

首批REITs扩募“吸金”逾50亿元 “资产上市平台”长期战略价值获市场认可-当前要闻

首批四单基础设施公募REITs扩募项目已于近日完成募集。在业内人士看来

06-13 14:58:35

乌克兰首都基辅再次拉响防空警报

当地时间13日清晨，乌克兰首都基辅再次拉响防空警报。（总台记者王晋燕

06-13 14:35:37

全球百事通！掘金主场94比89击败热火4比1夺得2022至23赛季总冠军

掘金主场94-89击败热火，4比1夺得2022-23赛季总冠军。这是掘金加盟NBA

06-13 13:41:57

【环球报资讯】任泽平减资9000万！

任泽平减资9000万！,网红,安曼,任泽平,科学家,经济学家,恒大集团

06-13 12:56:41

环球今亮点！汽车空调不制冷的原因及解决办法（汽车空调不制冷）

诸多的对于汽车空调不制冷的原因及解决办法，汽车空调不制冷这个问题都

06-13 12:05:42

《股东来了》浙江片区|百位投教课代表线上“敲重点”:北交所落实全面实行股票发行注册制要求业务规则制定的总体思路-天天观速讯

“喜迎亚运、循迹追梦、共富先行”，《股东来了》浙江片区邀请百位投

06-13 11:53:03

新能源汽车的“心”何处安放？动力电池回收市场未来几年将达千亿-每日信息

多年以前，李长东在打工时发现，电池厂大量的镍氢电池废料或边角料无法

06-13 11:15:50

美联储调查：未来一年通胀预期4.1% 创两年来新低天天热议

美联储调查：未来一年通胀预期4 1%创两年来新低

06-13 10:55:02

西安：打造极具魅力的会奖旅游目的地

中国商务新闻网是商务部国际商报社主办，国家互联网信息办公室批准的国

06-13 10:30:41

烟台经济增长缓慢，或与产业结构有关

烟台经济增长缓慢，或与产业结构有关自1992年烟台市改为地级市之后，其

06-13 10:15:06

天天快看点丨科陆电子投资设立新公司，经营范围含电池制造

企查查APP显示，近日，深圳车电星能科技有限公司成立，法定代表人为温

06-13 09:40:33

全球速看：新娘送礼会游戏的决胜局问题

新娘送礼会上剩下的丝带和蛋糕。游戏通常被纳入新娘送礼会以打破僵局，

06-13 09:21:56

会议费餐费标准会议费标准

今天来聊聊议费餐费标准，会议费标准的文章，现在就为大家来简单介绍下

06-13 09:10:50

天天观焦点：末世小说排行榜前10名完本_末世小说排行榜完结版

1、末世重生之少主横行末世重生之妖孽末世重生之炮灰逆袭重生末世之强

06-13 09:00:24

为什么是溧阳|天天新视野

为什么是溧阳在新能源最重要的动力电池领域，一个县级市可以拿出怎样的

06-13 08:08:19

环球微资讯！微博下载的视频在微博的什么地方微博下载的视频在手机哪个文件夹

1、这样的问题我也遇见过，但把内存卡用读卡器连电脑后，MP4还在video

06-13 07:15:25

世界要闻：宝骏汽车发动机怎么样宝骏汽车质量怎么样

1、宝骏630是上汽通用五菱合资自主品牌推出的第一款车，这个车借用的是

06-13 06:19:39

每日看点！鹰形近字组词有哪些字体（鹰形近字组词有哪些）

想必现在有很多小伙伴对于鹰形近字组词有哪些方面的知识都比较想要了解

06-13 01:00:43

实验室认证及认可_实验室认证

1、cqc认证实验室有很多的,几乎每个省都有,有些市也有,但是发证书机构

06-12 23:05:57

环球热讯:集体跟进！11家股份制银行已下调存款挂牌利率阵营还会进一步扩大吗？

紧跟国有大行的步伐，股份制银行纷纷“组团”打开存款利率“降息”通道

06-12 22:01:44

天天热资讯！提刑官百度百科提刑官相当于现在什么官

1、提刑官相当于现在的法官兼检察官。2、知州相当于现在地市的市长。3

06-12 21:05:22

烧烤为什么有肥皂味道,如何避免烧烤肥皂味的出现环球即时

烧烤是夏季最受欢迎的户外活动之一，但有时候会出现肥皂味道，这让人感

06-12 20:34:36

爱情不是两三天歌词_有一首歌里面有一句\"爱情它不是三两天“是什么歌

想必现在有很多小伙伴对于有一首歌里面有一句 "爱情它不是三两天“，

06-12 20:01:12

山西大同大学获山西省科普基地认定立项独家

6月12日，记者从山西大同大学获悉，在日前山西省科技厅公布的2022年度

06-12 18:34:18

焦点速递！公孙述的生平_公孙述

1、李熊，两汉交替之际，公孙述的心腹。2、　　西汉灭亡后，公孙述占据

06-12 17:51:52

国家金融监管总局批复！辛树人出任恒丰银行董事长_全球时快讯

6月12日，国家金融监督管理总局发布关于恒丰银行辛树人任职资格的批复

06-12 17:13:17

主持人温雅为儿子庆周岁，吐槽场地简陋亲自布置，富豪老公罕露面

6月9日，浙江卫视知名美女主持人温雅在个人社交平台分享出为二胎儿子庆

06-12 16:24:38

北京迎来观云好时节

昨天（6月11日）傍晚，市民驻足观看美丽的晚霞。北京日报记者方非摄

06-12 15:22:57

洪都拉斯外长答凤凰记者：与中国建交是主权行为-天天速看

洪都拉斯外长雷纳11日在北京接受中国媒体采访，关于中国、美国、洪都拉

06-12 14:24:16

北京海淀警方：男子驾车闯入某中学校园劫持学生，学生已获救每日热讯

6月12日，据@平安北京海淀消息，2023年6月12日7时许，一男子驾车强行进

06-12 11:58:12

省级名单公布！全椒这里上榜！

关于第三批省级幸福河湖名单的公示根据《关于印发〈安徽省级幸福河湖建

06-12 11:01:24

本周江苏仍多分散性雷阵雨

前天夜间的暴风骤雨浇灭了高温，昨天白天江苏大部分地区最高气温在30℃

06-12 10:20:20

加强教育强国建设全面提高人口素质今亮点

高质量的科学文化供给，正不断提升人民群众的科学文化素质。

06-12 09:17:37

墨西哥居家办公得报销网费电费，雇主还需提供符合人体工学椅子

【环球时报综合报道】墨西哥劳工部日前发布新规，要求雇主支付员工远程

06-12 07:59:53

全球看热讯：原来如此日语怎么说谐音原来如此用日语怎么说

1、搜噶＝そうか＝是嘛。2、搜得死内＝そうですね＝是呀，原来是这样、

06-11 22:16:02

莫扎特的一句话（关于莫扎特的话例如说他天真）|热资讯

来为大家解答以上的问题。莫扎特的一句话，扎特的话例如说他天真这个很

06-11 20:32:16

焦点速讯：突发！蔡英文与台空军通话，疑似"被解放军打断"！俄罗斯重大宣布：在此地部署核武器

今天早上，环球网引述台湾中天新闻9日报道称，民进党当局领导人蔡英文9

06-11 19:16:23

环球精选！张建坤深入高考点巡查护考护安情况

视频6月9日上午，市委常委、政法委书记张建坤带队到市八中、市四中巡查

06-11 16:33:27

指南针炒股软件官网下载电脑版_zn_环球快看点

1、ZN是阻燃耐火，ZH是阻燃及普通型阻燃的含义：在规定试验条件下，试

06-11 16:27:18

暖心相伴 “义”路同行

又是一年高考时，“义爱高考，助力学子”志愿服务活动如期而至，蓝色“

06-11 15:37:10

世界讯息：脚麻是什么原因引起的男性（脚麻是什么原因引起的）

1、脚发麻有可能的原因：血液循环不好!体质一般较好的人一般不会脚麻，

06-11 13:23:43

如何一键修复albo1125.common.dll丢失_世界关注

albo1125 common dll是一款Windows系统中必备的动态运行文件。如果在运

06-11 13:30:55

辐射松是什么木头（辐射松）

1、新西兰辐射松的拉丁名为PinupsradiataD．Don，遍及运用的英文名是Ra

06-11 11:31:27

精彩推送

今热点：央行：5月末社会融资规模存量为361.42万亿元同比增长9.5%

发改委：6月13日24时起国内汽、柴油价格每吨分别降低55元和50元

国家助学贷款累计发放超4000亿元惠及2000多万名学生

最新快讯!TES让一追二成功翻盘WBG，仁川3C相聚再度拉满话题！

【当前独家】信用记录关爱日｜个人信用报告是什么？如何维护良好信用记录？

第二届“太空农业·未来田园”主题科普活动在西安举行全球新视野

首批REITs扩募“吸金”逾50亿元 “资产上市平台”长期战略价值获市场认可-当前要闻

乌克兰首都基辅再次拉响防空警报

全球百事通！掘金主场94比89击败热火4比1夺得2022至23赛季总冠军

【环球报资讯】任泽平减资9000万！

环球今亮点！汽车空调不制冷的原因及解决办法（汽车空调不制冷）

《股东来了》浙江片区|百位投教课代表线上“敲重点”:北交所落实全面实行股票发行注册制要求业务规则制定的总体思路-天天观速讯

新能源汽车的“心”何处安放？动力电池回收市场未来几年将达千亿-每日信息

美联储调查：未来一年通胀预期4.1% 创两年来新低天天热议

西安：打造极具魅力的会奖旅游目的地

烟台经济增长缓慢，或与产业结构有关

天天快看点丨科陆电子投资设立新公司，经营范围含电池制造

全球速看：新娘送礼会游戏的决胜局问题

会议费餐费标准会议费标准

天天观焦点：末世小说排行榜前10名完本_末世小说排行榜完结版

为什么是溧阳|天天新视野

环球微资讯！微博下载的视频在微博的什么地方微博下载的视频在手机哪个文件夹

世界要闻：宝骏汽车发动机怎么样宝骏汽车质量怎么样

每日看点！鹰形近字组词有哪些字体（鹰形近字组词有哪些）

实验室认证及认可_实验室认证

环球热讯:集体跟进！11家股份制银行已下调存款挂牌利率阵营还会进一步扩大吗？

天天热资讯！提刑官百度百科提刑官相当于现在什么官

烧烤为什么有肥皂味道,如何避免烧烤肥皂味的出现环球即时

爱情不是两三天歌词_有一首歌里面有一句\"爱情它不是三两天“是什么歌

山西大同大学获山西省科普基地认定立项独家

焦点速递！公孙述的生平_公孙述

国家金融监管总局批复！辛树人出任恒丰银行董事长_全球时快讯

主持人温雅为儿子庆周岁，吐槽场地简陋亲自布置，富豪老公罕露面

北京迎来观云好时节

洪都拉斯外长答凤凰记者：与中国建交是主权行为-天天速看

北京海淀警方：男子驾车闯入某中学校园劫持学生，学生已获救每日热讯

省级名单公布！全椒这里上榜！

本周江苏仍多分散性雷阵雨

加强教育强国建设全面提高人口素质今亮点

墨西哥居家办公得报销网费电费，雇主还需提供符合人体工学椅子

全球看热讯：原来如此日语怎么说谐音原来如此用日语怎么说

莫扎特的一句话（关于莫扎特的话例如说他天真）|热资讯

焦点速讯：突发！蔡英文与台空军通话，疑似"被解放军打断"！俄罗斯重大宣布：在此地部署核武器

环球精选！张建坤深入高考点巡查护考护安情况

指南针炒股软件官网下载电脑版_zn_环球快看点

暖心相伴 “义”路同行

世界讯息：脚麻是什么原因引起的男性（脚麻是什么原因引起的）

如何一键修复albo1125.common.dll丢失_世界关注

辐射松是什么木头（辐射松）

陈根：脸部穿戴设备将嗅觉带入虚拟现实世界

X 广告

行业动态

行业资讯

植物科普

植物收藏

园林景观

绿色生活

环球播报:CVPR 2023 | 计算机视觉顶会亮点前瞻

福建尤溪县融媒体中心亮相2021中国网络媒体论坛展示会

中老铁路开通在即，建设者回味在“水豆腐”里打隧道的日子

5G、8K、AI……媒体未来什么样？记者探馆中国网络媒体论坛

上海新增新冠本土病例，专家提醒来了

哈尔滨今冬冰雪旅游季启幕

重庆：夫妻双方均可休育儿假