找回密码
 立即注册
查看: 291|回复: 0

打破视频会议平面化局限,全景方案拆分解析

[复制链接]

883

主题

81

回帖

439

积分

中级渣柚V1

积分
439

活跃会员

发表于 2019-9-29 21:24:15 | 显示全部楼层 |阅读模式

                        
                           
                                
                                打破视频会议平面化局限,全景方案拆分解析                           
                           
                           
                            全景成像系统在民用端主要用于VLOG,比如现在很火热的全景相机,三维像场全覆盖的设计有诸多先天优势:视角独具趣味性,而且先天就没有常规镜头倾角摆动带来的图像震动等等。而这些特性在商用环境中往往也很有生产力价值,比如监控领域,一个高分辨率全景系统就能覆盖广视角,再比如视频会议,传统方案的现状和问题在于摄像头视角局促,需要与会者全都挤在一起,比如这样:


                               
登录/注册后可看大图



这会带来几个问题,最明显的是没有视觉重心,当然目前也有可遥控的PTZ(平移、倾角、变焦)摄像头,而且一般支持壁挂、吊顶和脚架等安装手段,可以照顾到发言人,但妥协的是整个视场,且安装相对麻烦,同时还需要专人进行操控,而且这种布局方式对绝大多数公司会议室来说都不太理想,存在纵深透视和边缘成像的问题,无法照顾到所有参会者,而如果采用全景方案就是这个样子:


                               
登录/注册后可看大图



成像覆盖360度视角,是不是明显更符合大多数会议室的布局?直接把全景相机放在桌上就能搞定,但这只是解决了宏观的问题,与民用全景相机相比,全景视频会议系统依然有许多特有的技术细节要完善,而目前这种专机专用的产品寥寥无几,看到科技新推出的“看到Meeting”算是其中一个,它的外形是这个样子:


                               
登录/注册后可看大图



前几天发的盲猜产品就是它,没有一个人猜对也说明这一领域的专业性和稀有程度。简单来说,全景视频会议系统需要细化的问题有这几个:
1、 为什么它可以让视频会议参与更专注。
2、 它是如何改善会议系统的成像素质问题的。
3、 需要易于使用,视频输出模式和会议软件适配要足够丰富和简洁。
4、麦克风也要做全方向拾音,而且因为机身还内置扬声器,所以还要做回声消除处理。
5、在保持摄像头模组小巧的前提下,如何实现低畸变、高分辨率/高准确度拼接、小盲区的图像输出。
一点一点分析吧,先说沉浸体验,传统方案因为视角限制的关系,往往只能让部分参会者进入系统之中,而其他参会者就变得有些无法融入,而全景则是很好的解决方案,看到Meeting有3种显示模式,可通过机身按键直接切换,包括讨论模式(水平360度全景和每个人特写):


                               
登录/注册后可看大图



单人演讲(画面根据声源追踪发言人):


                               
登录/注册后可看大图



以及上下分屏,分别显示两个摄像头取景的全局模式,可见各种模式下的畸变都并不明显(注意区分透视变形和畸变的概念区别)。关键是看到Meeting可以通过麦克风拾音+AI人脸识别来判断声源位置,将三种模式结合使用可以获得远比传统方案更高的,全员参与的智能化沉浸式会议体验。


                               
登录/注册后可看大图



其次是画质的问题,一般的会议系统硬件分辨率都是1:1形式输出,比如采用的传感器就是1920*1080分辨率,但看到Meeting的2个全景摄像头均为1200万像素(4000*3000),而它的默认会议则是在8000*3000@25p的基础上超采样Motion JPEG编码1920*1080@25p/30Mbps,这个规格也一则充分考虑了视频会议的带宽问题,二则Motion JPEG即便在低码率下有利于做高分辨率(作为对比,MPEG则更利于提高帧率),而且图像处理延迟比较低,适合对帧率要求不那么高,但分辨率和实时性要求较高的会议系统使用。带来的结果就是成像素质明显强于市面上大多数中高端视频会议系统。当然,如果支持插存储卡内录就更好了,毕竟这个组合的性能上限远比这规格更高。


                               
登录/注册后可看大图



整体来说,看到Meeting的成像素质很不错,自动白平衡比较统一(上图天空出现的颜色差是各自曝光设置有所区别,在会议应用中几乎不会发生),自动亮度补偿以及柔化的肤色模式也比较符合现代上班族对自拍的审美观,并且像差校正做得还不错,边缘区域也能保证分辨率。
而对于商用客户来说,简化安装和易用非常关键。看到Meeting的易用设计比较人性化,与传统视频会议系统摄像头、麦克风、扬声器分离设计不同,看到Meeting为一体式设计,免安装、便于带到不同位置展开会议,零基础就能上手。而USB免驱直连PC,实测Windows 7、Windows 10、macOS可用。摄像头部分为按压收纳兼具开关功能设计,接入电源时按压弹出就自动开机,连上PC就能使用,会议结束后按压收纳自动关机且保障隐私。


                               
登录/注册后可看大图



一体式结构也就意味着对麦克风扬声器的设计有较高的要求,比如前面提到各大模式中最值得注意的就是单人演讲模式,因为它可以通过麦克风识别声源方向进行取景调整。麦克风有足足8个,为环形阵列设计,一般的智能音箱都会控制在2~6个,比如HomePod和小米AI音箱有6个,亚马逊Echo则是6+1,当然,即便数量相近,但它们之间也有明显的区别,价格也不尽相同,在这里就不展开了。在看到Meeting机顶可以看到对应的8个等距开槽的拾音孔,下埋麦克风单元(目前的主流是MEMS,但看到Meeting采用模拟还是数字MEMS还是未知,当然也不排除采用性能更强的驻极体)。


                               
登录/注册后可看大图



阵列麦克风的数量优势在于增大拾音范围和声源指向性,前者自不必多说,后者则主要是因为远场声波波形近似平面波,阵列设计意味声波抵达每个麦克风的行程不同,存在时间差,而根据这个时间差就能反推声源方向,麦克风数量越多,指向就越准确,可参考下面画出的线性简图:


                               
登录/注册后可看大图



从实际测试结果来看,看到Meeting在4米以内有比较准确的方向判断能力,并且拾音效果比较好,这意味着在50平方米左右的房间用看到Meeting进行视频会议也能保证拾音效果,当然这只针对音频,坐在远端的参会者会存在图像放大倍率过小的问题,因此从实用性而言看到Meeting主要适用的还是8人以内的小型会议。
除此之外它还内置了2个10W功率扬声器单元,比几乎所有笔记本内置扬声器效果都更出色,当然也是全向设计,但因为是开放式单元,所以必须做回声消除设计,以免扬声器发出的声音又被麦克风拾取,影响通话质量。回声消除硬件和软件都有方法,硬件简单粗暴一些但成本也相对更高,所以大多采用软件算法,但算法的问题在于实时性,可能会存在声音延迟的问题,而且看到Meeting主要适配的Windows/macOS本身就是非实时平台,所以具体回声消除效果还需要配合具体的视频语音软件来看,目前业内领先的是Skype和QQ,我常用的也正好就是这两个平台,根据测试,至少在这两个平台上看到Meeting的通话质量是很高的,基本没有回声,双向交流顺畅,当然它还支持几乎市面上主流的视频语音平台,适用面还是挺广的。
那么最后来聊聊技术吧,全景会议系统的基础自然是360度全景,那么全景是如何实现的?简单来说,只要有一个视场角达到360度的镜头系统就OK,显然单颗镜头不可能做到这一点,至少需要2颗才能搞定,而且镜头系统越多,综合成像质量越好,比如看到自家的Obsidian S/和GO都是6摄像头方案。但多个成像系统意味着成本的上涨和拼接算法的复杂化,因此绝大多数基础型全景成像系统都只会采用双镜组方案。


                               
登录/注册后可看大图



PS:用相机系统也比较容易拍摄二维全景图像,只需要找到镜头入瞳位置(少数镜头会在镜身上标注,没有标注需要利用滑轨云台自己慢慢找)并以此为云台转动轴心,就能拍摄无透视差的全景拼图(因为入瞳是物面所有光束的共同入口)。利用此原理,使用大光圈长焦镜头可拍摄拼接浅景深广视角效果,视觉震撼力很强:


                               
登录/注册后可看大图



回到双镜头全景系统上,因为单个镜组需要负责的视场角至少180度,这也就意味着鱼眼成为最靠谱的选择(其实理论上还可以用折返系统做,但设计复杂、加工配准困难,抗震性还很差,所以并不适合)。而为了将半球视场投影到有限的平面传感器上,根据理想投影公式:


                               
登录/注册后可看大图



y为像高,f为系统焦距,θ为物方半视场角,可见当视场角达到或超过180度,也就是θ≥90度时,像高为无限大或负数无法成像,所以理想投影在这种情况下并不适用,需要引入桶形畸变做非相似投影,以拍摄正弦标靶为例,鱼眼成像是中心稀疏而放大倍率高,边缘密集且放大倍率低。
主要的投影方式有等距离投影y=f *θ、等立体角投影y=2f*sin(θ/2)、体视投影y=2f*tan(θ/2)和正交投影y=f*sin(θ),摄影比较常用的是等距离投影,因为它的投影像点距画面中心的距离,和物方视场角成线性关系,可直接提取物空间角坐标,相对简单,当然等立体角和正交也有使用。
会议系统需要边缘成像不能差,分辨率要足够高,而鱼眼镜头的焦距选择对边缘分辨率有明显的影响,焦距越短,边缘分辨率越高,接下来是证明过程演算,不喜数学的可略过。
假设一个180度视场角,像面尺寸为2h、传感器像素间距为p的系统,以等距离投影成像,先引入实际像高与等距离投影像高的f-θ畸变值δ,实际像高就是y=f*θ*(1+δ),再设1+δ)为k,因为此时θ=π/2,所以有:


                               
登录/注册后可看大图



而与像高y像距2个像素的视场角θ2有:


                               
登录/注册后可看大图



于是有:


                               
登录/注册后可看大图



至此,此鱼眼镜头边缘角分辨率就可以表达为:


                               
登录/注册后可看大图



微分上式可得:


                               
登录/注册后可看大图



由此不难看出,当焦距f减小时,边缘角分辨率增大,对于固定尺寸传感器而言,相同物方视场角但焦距越短时,被压缩的边缘区域可以获得较大的像素空间,进而提升边缘分辨率。并且,这一点适用于所有四种投影模式,在这里就不逐一演算了。


                               
登录/注册后可看大图



解决单镜头广视角问题后,接下来全景镜头还需要做镜头间的边缘拼接,看到Meeting采用的是2颗视场角220度的鱼眼镜头,但大家要注意区分一个概念细节:视场角220度只代表传感器对角线投影是220度,当传感器有效受光区域高宽比不同时,水平视角也会随之改变(当然,恒小于220度),所以“全景”相机并非真的能“看全”整个三维坐标系,而是要随需求来选择,或通过移动机位来实现动态覆盖。
看到Meeting是4:3比例传感器,中心水平线是视角最窄的位置,按等距离投影粗略计算在176度左右,所以理论上中心水平位置的交叉区域会各自存在4度左右的盲区,但注意,虽然理论上盲区会随远离中心水平线而逐渐变小,并逐渐出现视场角交叉重叠,但实际上为了方便简化计算所以几乎不会这么做,而且拼接区域往往是实时渲染的,会根据具体纹理来具体操作。而且一般盲区出现在物距很近的情况下,对视频会议来说几乎不会发生,再加上超广视角有放大倍率随物距大幅降低的特性,图像对齐是没有问题的,如果安排座次时尽量避免与会人员坐在死角位置的话,基本可以忽略盲区的影响。而因为垂直视角不用做全景覆盖所以基本可以无视,这也是它可以做收纳型的伸缩柱形设计的原因。


                               
登录/注册后可看大图



关于全景拼接,特别是有交叉冗余的情况下就必须严格对齐,比较经典的方法有特征点检测和最优化图像变换矩阵理论,前者速度快但易受噪声和光照变化影响精度,后者则对迭代初值准确度敏感度很高,容易陷入局部鞍点,现代拼接一般采用混合两者的方式来进行,比如利用相位相关性来提取特征点并优化自动匹配算法,提供较为精确的迭代初始值,减少迭代次数,实现低时滞的拼接,当然这个点展开也会非常细,就不多说了,总体来说现代全景相机在这方面做得都很不错,但视频会议的严肃性决定了它需要结合更高素质的硬件设计和软件优化,在这方面,看到Meeting没什么问题。
虽然没有看到Meeting具体的镜头结构图,但从1.45mm物理焦距和F2.4光圈还是能看出端倪,这种超短焦鱼眼镜头的设计思路比较统一,大概率是1/2.5-2英寸CMOS传感器,并采用7~8片反望远结构打造,而且应该是由全球面玻璃材料,若合理结合非球面工艺理论上可以把焦距设计得更短。但即便如此,与看到Meeting类似的设计在200pl/mm空间频率MTF也能跑到0.4,也就是1700LW/PH(4:3比例1/2.5英寸),极限边缘照度为中心的80%(强烈桶形畸变抵消了余弦四次方),这个成绩看起来还不赖。
最后说说落地商用的可能性吧,拓展行业领域最大的障碍是如何劝服企业用户去打破传统,事实上视频会议系统的分门别类非常复杂,不少企业都会采购多种类型的产品,而看到Meeting主要应用于每个端口8人以内的会议规模,在这个前提下全景可充分发挥实用性:操作简单、音视频效果明显比传统摄像头更出色,技术上足以突破壁垒,只要建设好渠道关系,在中小型视频会议系统里分一杯羹应该不算难事。
                        
                        

                        
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|矿渣社区 ( 黔ICP备2024020525号-1 )

GMT+8, 2024-7-7 18:47 , Processed in 0.048276 second(s), 3 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表