“早在2010年的时候微软Kinect出来后,仅仅3个月就销售了800多万台,在我们看来3D视觉感知是革命性的方向,它实现了大脑人工智能的“耳眼”这一创新性功能。当时我们就着手开始研究,没想到一研究就长达5年之久,到2014年年底的时候,基本上把主要的技术障碍和算法难题给克服了。”华捷艾米CTO周晓军说到。
2017年5月11日,手机摄像头领域最具有影响力的智能终端产业峰会之手机产业创新大会在深圳举行。在大会演讲中,华捷艾米CTO周晓军重点分享了3D视觉感知、自然语言交互解决方案,并从3D视觉、3D感知芯片、3D测量模组、3D视觉感知相关算法、3D视觉感知关键技术、3D视觉感知的移动设备、3D视觉应用方向等多维度方案及市场应用方式,华捷艾米的3D视觉方案引起业内高度关注。
周晓军还谈到,“未来世界就是万物互联,人工智能无所不在,而随着人工智能算法的进步,3D视觉算法的完善,带有3D视觉的设备可以精确地进行3D手势识别、人体骨架识别、物体3D轮廓识别、人脸3D识别,并可以进行空间计算与场景重构,并计算追踪设备在空间中的运动姿态等。”
笔者了解到,具备3D测量算法和芯片、人物提取、骨架识别技术和动作跟踪等算法技术等全套软硬件技术的公司只有三家:微软、苹果(收购了primsense)和华捷艾米。
周晓军对笔者称:“使用结构光方式实现3D视觉有3个技术难点。其一是发射模组的光栅设计,其二是3D测量算法,简单点说就是激光器发射的红外光经过光栅形成一定模式的结构光投射到物体之上,接收端采用红外CMOS,拍摄到带光斑的二维畸变图像,通过算法生成3D深度数据。华捷艾米专门设计了一颗ASIC 3D测量的算法芯片,可以实时算出深度数据。”
要知道一旦攻克上述两大难点,便可以做出深度照相机。例如目前Intel等公司都可以做到深度照相机这一功能。
还有一个核心的问题便是骨架算法。据悉,它可以把人从背景中提出来,而3D测量芯片输出的深度图是骨架算法的输入源,有了骨架算法,就可以快速识别人的动作、姿态、手势等等。华捷艾米的骨架算法,可以同时并实时识别6个人,每个人20个关节点,并且打破了微软、苹果(Primsense)对骨架算法的垄断。
笔者现场了解到,华捷艾米的产品是最新的自主研发的3D视觉、自然语言交互解决方案,包括自主芯片、内嵌3D测量的算法、骨架算法、手势算法和其他应用算法。华捷艾米能够为智能手机、机器人、VR/AR等行业用户提供搭载智能3D视觉算法的深度摄像头,从而为行业客户提供一站式的只能3D视觉感知、自然语言交互解决方案。例如在应用端,可运用在三维人脸识别、医疗康复、教育、游戏和健身、看护陪伴、装修装饰、智能监控、跳舞运动、机器人、老人看护、运用识别、自动取款机、虚拟换衣镜等开创性的交互体验。
华捷艾米自主研发的3D视觉感知、自然语言交互解决方案,最大的优势在于,技术层面,有自主芯片、内嵌3D测量的算法和应用算法,特别是2代芯片可以达到90帧/秒,这是什么概念?通俗点讲就是完全实时。
其次,华捷艾米的竞争优势在于其技术积累,要知道在其自主完整的3D视觉感知解决早期便已经和国内一线电视厂商均有合作,其深度摄像头更是的克服了抗变形的难点,而这一难点在算法中便已经实现过滤。
其团队更是精英齐齐,有专门的芯片设计团队和算法研究团队,在算法领域目前有20多位博士做相关研究,同时也和清华大学、中科院保持深度合作关系。
更值得一提的是,作为3D视觉领域非常重要的部件芯片,华捷艾米早在2014年便早已积极布局,获悉,华捷艾米的一代3D测量芯片已经量产,该芯片可支持彩色摄像头数据输入,支持VGA分辨率,30FPS输出,支持VGB深度图、30FPS输出;同时也支持QVGA深度图,60FPS输出,支持4路数字音频输入。
据笔者了解,华捷艾米手机芯片将于今年Q4量产,其支持主流RGB摄像头、1080P分辨率,拍照增强、美化、输出3D人脸识别等功能;此外,在年底将内置更多人工智能算法,应用领域不仅持3D人脸识别,同时也支持抠图、人体行为识别、语音、AR、人体与手持设备的配合等领域。
而远场语音识别,是基于线性(环形)矩阵麦克风阵列的SSP技术,有效抑制噪声和混响,实现远距离(超过5米)语音采集和语音识别,可以通过语音对设备进行精准的远程语音控制,适用于智能家居、家电的交互场景。
毫无疑问,随着3D摄像头技术的不断发展与创新行业应用的推动,不仅在智能手机、机器人、金融领域还有人脸识别、安防、智能家居等领域都将在智能深度摄像头的带动下给我们带来划时代的交互新体验。