博云视觉参加第117次ISO/IEC MPEG国际标准会议

admin发布

2017年1月16日至20日,第117次ISO/IEC JTC1/SC29/WG11运动图像专家组MPEG(Moving PictureExperts Group)国际标准会议,在瑞士日内瓦召开。博云视觉公司作为中国代表团专家成员参加了本次会议,并联合北京大学、新加坡南洋理工大学针对“面向视频分析的紧凑视觉描述子CDVA(CompactDeors for Video Analysis)”标准提交了提案。

MPEG是国际标准化组织(ISO)和国际电工委员会(IEC)第一联合技术组(JTC1)1988年成立的运动图像专家组(Moving PictureExpert Group)的简称,全称为ISO/IEC JTC1第29分委会第11工作组(ISO/IECJTC1/SC29/WG11),负责数字视频、音频和其他媒体的压缩、解压缩、处理和表示等国际技术标准的制定工作。 本次会议共有来自中国、美国、德国、韩国等20多个国家包括来自华为、高通、苹果、三星等400多名业界代表出席参加,共收到577份提案。

博云视觉在此次会议上,与北京大学、新加坡南洋理工大学联合,围绕CDVA标准的核心实验4(CoreExperiment 4, CE4) 提交了提案《 PKU’s Response toCDVA CE4: NIP Network Compression》和《 PKU’s Response to CDVA CE4: Combination of NIP and CDVS Deors》。

以准确率为首个突破口

在2016年10月,中国成都召开的第116次MPEG标准会议中,博云视觉提出了融合底层生物视觉特征CDVS(Compact Deorsfor Visual Search)和深度学习语义特征NIP(Nested Invariance Pooling)的视频目标对象搜索技术路线,能够获得比单独使用任何一种特征都要好的搜索效果:在约1600小时视频数据和9000多个查询测试评价框架下,将视频目标对象搜索的平均准确率从72%提升至83%.

持续攻关优化,推动深度学习实用化、前端化

在本次会议中,博云视觉提交的提案主要聚焦于深度网络模型压缩。在保持搜索准确率的前提下,将网络模型大小从500MB压缩到8MB。深度学习近几年来在计算机视觉任务中取得了巨大的成功,但是深度网络模型本身计算复杂度高,存储开销大的特征成为了实用化中的巨大阻碍。这将深度学习在推向实用化,前端化的道路上,又迈进了巨大的一步。

会议中,各国专家对该提案给予了高度评价,反响热烈,并针对CDVA标准,为深度学习的技术路线单独开辟了三个核心实验,分别为深度学习特征表达,深度学习与CDVS描述子结合,深度网络模型参数压缩,期望未来深度学习能进一步推动CDVA标准的发展。