OPPO共有7篇论文成功入选CVPR 2022,创历史新高,在多个重点研究领域实现创新突破。
日前,深圳mdashmdash计算机视觉顶级年会CVPR在纽奥良落下帷幕今年OPPO已经成功入选7篇论文,跻身技术厂商前列同时,OPPO在广受关注的挑战赛中也取得了三个第一,一个第二,四个第三的成绩
伴随着深度学习的逐渐成熟和规模化,人工智能技术从意识到To 认知向前一步AI除见或者听到,并开始逐渐具备像人类一样思考的能力多模态融合,3D视觉智能技术,自动机器学习等正在成为人工智能领域的重点研究热点OPPO收集了上述所有领域的论文,并在AI的关键学术领域取得了创新突破
OPPO智能感知首席科学家郭延东表示:2012年,为图像识别设计的深度神经网络为人工智能的研究和应用重新注入了能量自此,人工智能技术迎来了高速发展的10年在OPPO,我们继续推动人工智能像人类一样完成复杂的感知和认知行为比如从未标记的海量数据中持续学习并迁移到下游特定任务,从几个有限的视角完全重构3D信息,更高的认知能力,比如对美的理解和创造,和具有独立行为能力的Entity AI,比如自动驾驶场景下的行为预测很高兴OPPO在2020年出道后短短三年内,就取得了七篇主要会议论文的好成绩未来,我们希望继续探索更基础,更前沿的AI领域,推动AI的商业化应用,让创新技术更好地服务于人
已收录7篇论文,OPPO正在帮助AI提升认知水平。
在本次CVPR2022上,OPPO共评选出7篇CVPR论文,涵盖多模态信息交互,三维人体重建,个性化图像审美评价,知识升华等研究领域。
不同模态数据的特征是不同的文字,语言等信息极为笼统,图像往往包含大量细节在多模态数据下,人工智能在模态之间建立有效的交互是非常具有挑战性的OPPO的研究人员基于CLIP模型提出了一个新的CRIS框架,使AI能够更精细地理解图像和文本的数据即使输入包含多种信息的文本描述,框架也能准确聚焦到对应的图像区域,表现出很强的细粒度跨模态匹配能力
目前,人类智能和人工智能最重要的区别之一在于对多模态信息的识别和理解对于人类来说,我们往往可以同时理解文字和图像,并有效地将它们联系起来而AI停留在识别阶段,很难准确对应不同模式的信息OPPO这次提出的创新方法,可以帮助人工智能在多模态理解上更进一步未来,伴随着相关技术的不断发展,人工智能真的可以像科幻小说中描述的那样,通过语言,听觉,视觉等多重信息来认识现实世界,真正成为人们最好的Helper
同样,在最近比较热门的三维人体重建领域,OPPO研究院通过改进NeRF创新的动态角色建模方法,在业内首次实现了为穿着宽松的人体自动创建数字头像的工作该建模方法只需对摄像头拍摄的RGB视频进行分析,就可以1:1准确还原人的动态细节,甚至是衣服的微小logo或纹理细节服装的建模与还原一直是业界极具挑战性的领域之一,因为人体姿态变化的同时,服装材质的变形非常复杂,这使得AI很难解决这样的问题,钟摆这部分变形了这可以有效降低3D人体重建的门槛,为线上虚拟试衣购物,AI健身乃至VR/AR虚拟世界的真正落地提供良好的技术基础
伴随着AI的图像识别能力逐渐成熟,如何让AI具备图像审美能力成为新的问题AI的审美能力往往与训练中使用的数据和标注者的偏好有很强的相关性,而人的审美往往是多种多样的利用基于大数据的审美评价来服务不同的用户,可能会导致人们对产生兴趣,审美辨别讨论,导致用户体验不好于是,能够通过更精细化的数据和模型,精准捕捉不同用户审美差异的个性化审美评价应运而生
在这方面,OPPO研究院联合西安电子科技大学李立达教授首创了条件PIAA算法,最早从引入,用户主观偏好与图像审美交互,如何产生个性化的品味从视角优化AI模型该算法可以实现基于不同用户画像信息的个性化审美评价,可以在相册,相机,互联网内容推荐等场景中为用户创造个性化体验,具有广阔的应用前景
用该算法提出的具有丰富属性标签的个性化审美评价数据集也已宣布开源,为业界在个性化审美评价领域提供了有价值的研究数据目前,该数据集已受到许多研究机构和大学的关注和询问
此外,OPPO的多视图3D语义平面重建技术,可以精确分析场景的3D平面结构,预测地面,桌面,墙壁等平面的语义标注,效果明显优于目前主流的单视图重建架构清华大学提出的INS—Conv可以实现更快,更准确的在线三维点云语义和案例分割推理该技术可以有效降低环境识别对终端计算能力的要求,为全自动驾驶,虚拟现实等前沿技术的落地增加可能性
获得NAS挑战赛亚军OPPO创新模式助力AIRdquo
OPPO在同期举办的挑战赛中也表现出色,在八大赛中均取得了不错的成绩包括神经网络架构搜索技术跟踪,SoccerNet动作定位跟踪,SoccerNet重放接地跟踪,活动网临时定位跟踪,第四届大规模视频对象分割挑战赛,关于不利视觉条件下语义分割的ACDC挑战赛2022以及WAD Argoverse2运动预测挑战赛
从手机摄影到无人驾驶,深度学习模型已经进入越来越多的行业但深度学习对大数据和计算能力的依赖程度较高,学习成本较高,也给前沿AI技术的商业落地带来挑战神经网络架构搜索技术可以自动发现神经网络的最优架构,减少对人工经验和背景知识的依赖,使AI实现自主学习比赛中,OPPO研究人员通过优化模型参数遗忘和训练supernet过程中的不公平梯度下降,针对继承45000个带超网参数的子网有效提高了子网在性能和性能排名上的一致性,最终获得第二名
伴随着NAS技术的发展,研究人员只需要训练一个大型超级网络,然后通过继承超级网络的参数,低成本地构建一个预测器,实现网络架构的自学习,从而高效地获得优于专家设计的深度学习模型这项技术可以应用于目前大多数人工智能算法,可以帮助AI技术在移动设备上的应用,让用户体验到AI技术快速落地带来的好处
值得一提的是,继去年OPPO在足球行为分析赛道中获得动作点触和重播接地第二名后,今年OPPO再次获得重播接地第一名和动作点触第三名。
在CVPR 2022上,OPPO还参加了三场高级别研讨会并发表了演讲其中,在SLAM研讨会上,OPPO研究员樊登分享并讨论了如何在智能手机和AR/VR设备上运行实时vSLAM李益康研究员在移动人工智能研讨会上发表演讲,提出了无监督的视频—文本跨模态哈希方法mdashmdashCLIP4Hashing,为移动设备上的跨模态搜索提供了重要的思路李伟参加了AICITY Workshop,提出了多视角运动定位系统,识别驾驶员在驾驶时的异常行为
以创新推动商业化,OPPO希望尽快让人们享受到AI带来的便利。
今年是OPPO参与CVPR的第三年在OPPO收集的论文数量和挑战结果不断上升的同时,研究领域也从人脸识别等应用领域转向更基础的技术
At 微笑向前在品牌使命的指引下,OPPO也在携手行业伙伴,不断推动人工智能技术从实验室走向生活2021年12月,OPPO发布首款专用于自研图像的NPUmdashmdashMariana X凭借其强大的计算能力,能效比和运算速度,可以让AI算法的运行速度达到前所未有的水平,为用户解决手机长期难以解决的夜间视频质量问题此外,基于强大的底层AI能力,OPPO还发布了包括CybeReal全时空间计算AR应用,OPPO Air Glass,Omoji等创新产品和功能,希望尽快创造出更加真实的数字新世界,带给用户真实物理世界和虚拟数字世界的融合体验