虚拟演播室系统可分为3个部分:跟踪计算、虚拟场景生成及视频合成。
跟踪计算
摄像机在拍摄过程中有平移X、纵移Y、高度移Z、水平角、俯仰角、镜头变焦ZOOM,聚焦FOCUS等变化,这些参数的改变会引起所摄图像视野与视角的改变,为了模拟人物所在的三维环境,计算机必须根据这些参数不断调整三维视图。而摄像机跟踪部分的作用正是收取摄像机的位置信息和运动数据,实时地跟踪真实摄像机,以保证前景与计算机背景“联动”。由于这种“联动”是以高速计算机运算的结果,而这种运算永远需要一个运算时间,所以这种“联动”是有时间差的。只是设计者保证限制这种时间差在一个人眼不易察觉的范围内,因此要求前景摄像机只能在一个有限的速率内改变位置参数。目前虚拟演播室的摄像机跟踪系统主要有摄像机参数图形识别(Pattern Recognition)和以传感器为基础的跟踪系统(Sensor-based Camera Tracking System)两种方式。同时这也是虚拟演播室两大类别的主要区别之处。
- 摄像机参数图形识别跟踪系统
图形识别(Pattern Recognition)跟踪系统又称网络跟踪系统,作为一项图像处理的基本识别技术,利用已知特殊图形定位摄像机参数已有十多年的发展历史。摄像机参数图形识别跟踪系统的基本原理是需要一个画有特殊网格的蓝色背景幕布(见图8.16),它将摄像机所拍摄的画面送到数字视频处理器(DVP)中进行处理,通过对该画面中网格各具的不同特征和透视关系进行计算,得出有关摄像机的运动参数。在虚拟演播室发展的初期这项技术应用于虚拟演播室中的摄像参数定位,具有先进的一面,它省去了传感器跟踪系统所必然带来的对云台的改装,并可使一套识别跟踪系统与多个摄像机相连,但它的先天不足也使其在应用上遇到了许多问题。
首先,由于一套识别跟踪系统只能同时跟踪并处理一个方位信号,因而在原理上图形识别跟踪系统就只能为场景生成系统提供一个机位的参数,从而使场景生成系统只能生成一个主输出画面。如果场景生成系统有能力生成并合成一个或一个以上的预监画面,为能跟踪除主输出之外的一个或一个以上的摄像机参数就必须相应地增加识别跟踪系统,也就是说,如果想要同时监视4个摄像机的合成画面,除了要有4套背景生成及合成系统外,还必须配置4套图形识别跟踪系统。虚拟演播室发展到现在,对预监机位甚至是双画面特技的要求越来越强烈,而利用图形识别跟踪技术所能达到效果很难让人满意。另外,由于该技术的核心是一套图形识别跟踪系统,一旦图形识别跟踪系统出现故障就将导致整个系统崩溃而无法播出,所以利用这种技术进行直播是相当危险的。同时,图形识别跟踪技术产生的系统延时一般也高于传感器跟踪系统,给摄像师的操作和演员的表演都带来了难度。
第二,图形识别跟踪系统通常要在蓝幕上用不同的颜色标注识别图形,因而对虚拟演播室背景灯光的要求也就相应提高,同时为了能将蓝幕和网格同时用色键器键除,色键器的键阈值就必须相应提高并加速,从而使色键器很难实现如透明体、烟雾,阴影等效果。而阴影作为人手与虚拟场景结合的关键因素,却是虚拟播室效果真实感的重要标志。
第三,图形识别跟踪系统在所识别的画面中要求至少有一个可识别的图形(如网络)才能定位摄像机参数,因此当摄像机镜头推上或人手遮挡使画面中没有可识别图形时,图形识别跟踪系统根本不能工作,这也就是说单纯利用这种系统绝对不能进行人物特写的拍摄。目前的解决方法是求助机械传感系统,也就是要在镜头上安装机械传感器才能完成特写的拍摄。但其实一旦安装了镜头传感器,只要再安装云台传感器就能构成一个标准的传感器跟踪系统,图形识别已毫无意义。
第四,在参数采集精度上图形识别跟踪系统也受很大的限制,摄像机距离蓝幕过远或过近以及摄像机自身的分辨率都会影响参数精度,特别是当背景被虚焦时,极易带来画面的抖动。
- 摄像机参数传感器跟踪系统
随着虚拟演播室技术的诞生和发展,摄像机参数传感器跟踪系统的技术也得到了迅速的发展,其参数精度、参数采集速率都足以满足虚拟演播室技术的要求,在与云台和镜头的配合安装上也有多种方式可供选择,并且其成本和价格也在逐步降低。特别是目前许多云台和遥控云台上安装了能满足虚拟演播室要求精度的参数传感器,甚至一些镜头生产厂商为能扩大销售也开始在其镜头上安装传感器,我们甚至可以预见,随着演播室和虚拟演播室自动化的发展,摄像机参数传感器跟踪系统很可能成为演播室云台和镜头的标准配制。摄像机参数传感器跟踪系统要求对每个在虚拟演播室中使用的机位都安装传感器,这种方式固然令系统造价随着机位的增加而提高,但其优势也是显而易见的。由于每个机位都有传感器,虚拟演播室的主控系统可以同时获取每个机位的参数,因此有可能为每个机位提供虚拟背景与合成画面。
计算机虚拟场景生成
虚拟演播室的场景是计算机生成的图形,根据图形是二维和三维,虚拟场景也有二维和三维之分。根据三维模型生成方式,三维场景有真三维系统和二维半系统。所谓真三维系统是指由计算机实时生成三维虚拟场景,场中灯光的强弱、位置以及物体的位置和大小都可以实时变化,当能获取摄像机位置参数时机位也可移动。该系统由于物体、灯光甚至机位都可以移动,画面会显得比较生动,适合用于综艺、科技类节目以及效果要求复杂的体育、天气预报节目。但是这种设备一般造价较高,并且受到计算机处理能力限制,三维虚拟真实模型不可能无限复杂,即虚拟场景的总效果受到限制。所谓二维半系统是指事先由三维处理软件生成好场景画面,再由计算机根据摄像机参数进行贴图,场景中灯光的强弱、位置以及物体的位置和大小都不能变化,摄像机位置也不能移动。二维半系统的物体,灯光以及机位都是固定的,但因为场景是提前渲染好的,其效果可以任意发挥不受计算机处理能力的限制,并且造价较低,非常适用于场景静止的新闻、访谈等节目的制作,应当说能满足大多数节目制作的要求。
视频合成
虚拟演播室系统视频合成的基本技术是色键器抠像,即摄像机拍摄的蓝幕布前的真实景物通过色键器进行抠像处理,与计算机生成的虚拟场景合成。
虚拟演播室前景和背景合成要采用深度合成技术。所谓深度就是前后关系,这一技术要考虑两路键信号的深度信息。这不同于三维图像的造型技术,因为虚拟演播室三维场景图像中的像素不仅需要都带有深度信息,而且还要有与摄像机的距离信息,由这两部分信息决定前景和背景像素的可见性。在实时生成的时候,高性能的计算机通常使用一个深度缓冲区来存储像素的深度值。那么如何在传统摄像机拍摄时,获取前景视频信号的深度信息呢?通常采用估计方法,估计摄像机与演员之间的距离,即深度值(深度键)。前景信号通过色键抠像得到演员部分的信号,先与背景作传统方式上的合成,得到色键序列值,这样已部分地确定了前景在背景中的位置,再由深度值来进行前后关系的调整,最后输出的深度键值序列再按传统方法合成。