以前,我们一直认为传统相机将3D世界转换为2D图像,已可以满足我们对于图像的应用,而2D图像中丢失的三维似乎并不重要。
但随着计算机视觉(CV)的飞速发展以及与深度学习的结合,许多雄心勃勃的研究人员试图使机器通过摄像头更好地了解我们的世界,以便它们可以通过许多任务来增强人类的能力。其中最有意义的是找回2D图像中丢失的深度信息。
在如今诸多火爆的智能硬件中,如体感交互、远程遥控机器人、无人驾驶等场景里,CV发挥着重要作用,成功完成诸如手写识别,对象分类、辅助驾驶之类的工作。但是,当处理真实的3D世界时,CV就存在瓶颈。人类有两只眼睛,使我们能够自然地感知深度。但是,大多数CV应用程序都依靠一台摄像机来捕获和解释其周围的环境。丢失的三维尺寸严重限制了CV的性能,可以说传感器的性能就是如今虚拟与现实世界之间的瓶颈。
深度传递关键信息——我们将需要深度感测和2D成像来捕获现实世界的全部信息。
深度传感器的三种技术
目前人们如果想探测环境深度信息,主要依赖于三种技术,分别是相机阵列, TOF(time of flight)技术,以及基于结构光的深度探测技术。
结构光:
接收器使用激光光源投射目标物,检测反射目标物的变形,以基于几何形状计算深度图。它必须扫描整个平面以获得需要时间的深度图,因此它是非常准确的。但是,此方法对环境亮度敏感,因此通常仅在黑暗或室内区域使用。
飞行时间(ToF):
ToF主要有两种方法。第一个很简单:激光源发出一个脉冲,传感器检测到该脉冲在目标物体上的反射,以记录其飞行时间。知道了光的恒定速度后,系统可以计算出目标物体的距离。为了确保高精度,脉冲周期必须短,这导致较高的成本。另外,需要高分辨率的时间数字转换器,这会消耗很多功率。这种方法通常可以在高性能ToF传感器中找到。
计算时间的另一种方法是发出调制光源并检测反射光的相位变化。相变可以通过混合技术容易地测量。调制激光源比发出短脉冲更容易,并且混合技术比时间数字转换器更易于实现。此外,LED可用作调制光源来代替激光。因此,基于调制的ToF系统适合于低成本ToF传感器。
相机阵列:
摄像头阵列方法使用放置在不同位置的多个摄像头来捕获同一目标的多个图像,并根据几何结构计算深度图。在计算机视觉中,这也称为“立体视图”或“立体”。最简单但最受欢迎的相机阵列是双相机,其中两个相机相隔一定距离以模仿人眼。对于空间中的每个点,在两个摄像机图像中的位置均出现可测量的差异。然后,通过基本几何来计算深度。
相机阵列的主要挑战是如何在多个图像中找到匹配点。匹配点搜索涉及复杂的CV算法。目前,深度学习可以帮助您找到准确度较高的匹配点,但是其计算成本很高。另外,有很多点很难找到匹配点。例如,在上面的瓦格纳雕像的两个视图中,鼻子是最容易匹配的点,因为它的特征易于提取和比较。但是,对于面部的其他部分(尤其是面部无纹理的表面),很难找到匹配点。当两个相机图像的遮挡不同时,匹配会更加复杂。目前,相机阵列作为深度传感器的鲁棒性仍然是一个具有挑战性的问题。
三种深度感测技术的对比
整体表现
对于深度感测,最重要的指标是深度精度。结构光具有最佳的深度精度性能,而相机阵列往往具有最大的深度误差。
就深度感测范围而言,结构光的范围最短,而ToF的范围取决于光源的发射功率。例如,智能设备可能只需要几米的距离,而自动驾驶汽车则需要几百米。同样,摄像机阵列的测量范围取决于两个摄像机之间的空间。对于常规摄像机阵列,最佳性能测量范围通常在10m左右,尽管也显示了某些具有极窄空间的特殊摄像机阵列可以在1m左右测量深度。
对于深度图分辨率,结构光的性能优于ToF,因为可以精确控制结构发光图案并精确捕获其反射图案。从理论上讲,摄像机阵列具有良好的分辨率,但这是基于两个图像中的完美点匹配。使用非理想的点匹配(如光滑表面)时,分辨率会降低。
最后,我们需要考虑对环境亮度的限制。结构光需要黑暗的环境,而ToF传感器由于快速发展的背景消除技术而可以承受更大范围的环境亮度。对于摄像机阵列,明亮的环境效果最佳。在黑暗的房间中,相机阵列捕获的图像会变得嘈杂,并且对比度变差,因此点匹配变得极为困难,从而导致深度估计不准确。
成本
摄像机阵列的成本通常最低,其开发工作主要在软件方面。双摄像头解决方案已经广泛应用于许多智能设备和移动电话中。ToF传感器的成本适中,而结构光的成本最高。但是,随着ToF的批量生产,预计其成本在不久的将来会大大降低。
可扩展性
通过展望这些技术的潜力,我们可以更好地利用它们来满足未来的需求。
ToF是半导体技术,并且具有最佳的可伸缩性。它的深度精度可以通过片上时间数字转换器/混合电路进行缩放,其深度图分辨率可以通过传感器尺寸进行缩放,其测量范围可以通过光源功率/调制方案进行缩放,并且其功耗可以通过用半导体技术扩展规模。
另一方面,结构光具有不错的可伸缩性。光学系统是结构光的关键组成部分,光学系统可以随着封装技术而扩展(尽管不如半导体快)。
最后,缩放摄像机阵列主要依赖于软件:我们将需要更好的算法来缩放其深度感应性能。它更像是一个数学问题,而不是工程问题,而改进硬件并没有太大帮助。即使使用分辨率更高的相机,点匹配问题仍然存在。
资料来源:德州仪器
建议仅使用结构光来执行生物识别任务,因为它具有最佳的深度精度。游戏应用需要中等深度分辨率和快速响应,因此ToF传感器似乎是最合适的。对于其他应用程序(包括定位,识别,测量和增强现实),所有技术都可以做到,但是某些技术比其他技术更适合特定的应用场景。例如,相机阵列可能最适合在需要深度测量范围的开放空间中的AR应用,而ToF传感器最适合可以控制环境亮度的室内AR.
深度传感器的应用
1. AR / VR:用于感知真实的3D环境并在虚拟世界中重建它们
深度信息对于VR / AR设备的人机交互也是必需的。设备必须准确响应用户的3D运动,因此肯定需要高性能的深度传感器。
例如,谷歌的Project Tango使用深度传感器来准确地测量实际环境,并通知其图形算法将虚拟内容放置在适当的位置。与Pokemon Go的AR模式相反,由于算法没有环境深度信息,因此用户经常可以看到Pokemon放置在不正确的位置。
2.机器人:用于导航,定位,地图绘制和避免碰撞
许多仓库已经利用了将物品从一个地方运输到另一个地方的全自动驾驶汽车。车辆自行行驶的能力需要深度感应,以便能够知道它在环境中的位置,其他重要事物的位置,最重要的是,它如何安全地从A移到B.类似地,任何用于拾取目的依赖于深度感应来了解目标对象在哪里以及如何获取它。
这些相同的应用对于任何自动驾驶汽车的成功都是必不可少的。实际上,目前无人驾驶汽车面临的最重大挑战之一是为汽车配备精确的深度传感器和CV系统,而不会大幅增加成本。这仍然是一个竞争激烈的市场,许多新创公司都在争夺领导地位。
3.面部识别:在防止欺诈的同时提高便利性
大多数人脸识别系统使用2D相机捕获照片并将其发送给算法来确定人的身份。但是,这存在很大的漏洞:糟糕的演员会欺骗系统,因为他们无法分辨是看到的是真实的3D面孔还是2D照片。为了使人脸识别安全,必须使用具有深度感应功能的3D相机。
除了阻止漏洞外,3D人脸建模还可以传达人脸的更多特征,以实现更准确的识别。
4.手势和接近检测:用于游戏,安全性等
飞行时间(ToF)深度传感器已被许多设备用于这些目的。在简单的实现方式中,深度传感器仅需要检测一个点的深度信息,例如用于手势检测的手或用于接近度检测的脸部。因此,具有简单的光学器件(和较窄的视场)的深度传感系统就足够了。随着手势检测的发展,使用了更复杂的深度感应系统,例如Microsoft的Kinect.
深度传感器的创业机会
在未来几年中,深度感应将成为一个巨大的市场。当前,深度感测中的许多技术仍有很大的改进空间,这可能是技术初创公司的机会。此外,初创公司可以尝试将当前的深度感应技术用于新兴应用。
深度感测技术与CV应用程序的结合
深度感测系统可以与当前的计算机视觉应用程序结合使用,以大大提高其性能并满足实际部署的需求。这也有助于减轻极端情况的影响-2D中的许多极端情况实际上可能是3D世界中的正常情况!结果,深度感测可以使CV算法执行我们生活中更重要的事情,其中一些甚至可以是破坏性的创新,从而创造更多的市场,例如面部识别。
ToF传感器——以合理的价格使用脉冲激光
当前,用于移动设备的ToF传感器通常使用低成本的基于调制的光源。如前所述,基于调制的光源具有范围模糊性,并且其性能通常不如脉冲激光器。脉冲激光器已经成功地用于LiDAR中,但其成本,功耗和尺寸仍然不适用于移动设备。
但是,LiDAR中的激光源最近发展很快。初创企业有可能将脉冲激光引入用于深度动态,性能至关重要的系统的移动式ToF传感器中,例如针对面向业务的电子市场领域的AR和VR.这些应用程序还可以提供很高的利润率,对于初创企业来说是一个理想的机会。
ToF传感器——改善LED性能
ToF传感器的另一端是对成本敏感的应用程序,例如IoT.对于低成本设备,激光仍然太昂贵。LED可以在ToF传感器中用于低成本应用,但性能会下降。ToF传感器的LED性能问题可以在设备或系统级别解决。通过该装置,可以使用具有更高调制频率容量的新型LED.通过改进系统的模拟信号处理电路,重新配置系统(即使用LED阵列并组合结果)或通过实施一种新的深度评估算法。
ToF和结构光——提高亮度容限
环境亮度是ToF和结构光深度传感器的瓶颈。为了忍受来自环境的更多光,已经提出了几种背景消除技术。例如,在意法半导体(STMicroelectronics)生产的ToF传感器芯片中,还集成了环境光传感器和深度传感器像素,以估算来自环境光的干扰。其他一些公司也提出了信号处理(模拟和数字)中的背景消除算法。
但是这些解决方案并不完美。为ToF和结构光提供更好的背景消除仍然是深度传感技术中的一个悬而未决的问题。如果初创公司可以解决这个问题,那么它的价值将是巨大的,特别是对于背景消除而言,可以使结构的光深度感应系统在明亮的环境中工作。
摄像头阵列与ToF结合使用可实现高分辨率
尽管ToF传感器的分辨率较低,但相机阵列的分辨率较高,但存在匹配问题。但是,智能设备完全可能同时包含摄像头阵列和ToF传感器。相机阵列还可以用于深度感应以外的应用程序,例如智能对焦。可能会合并来自摄像机阵列和ToF传感器的信息,从而以高分辨率和良好的深度精度计算深度图。该深度传感系统的总成本甚至可能低于具有更高分辨率的ToF传感器。
这些只是带有深度传感器的新型计算机视觉应用的众多未来机会中的少数。到目前为止,绝大多数计算机视觉应用程序都涉及通过摄像机解释2D世界。借助深度传感器,我们为计算机提供了整个数据范围,极大地扩展了计算机能够执行的功能的可能性。
参考来源:Comet Labs