1、面向图像的深度学习
从已识别数据(“训练”)到尚未识别数据(“推理”)的模式匹配和推算功能,已经改变许多算法的开发方式,影响到多种应用。计算机视觉是首先积极采用深度学习的学科之一,理由很充分:传统算法的开发很无趣,应用范围窄,而且无法精确处理“极端情况”,例如离轴对象视图、恶劣照明条件,以及大气和其他失真、模糊情况。而且,为识别某一类对象而开发的算法,若是要用来识别不同类别的对象,通常需要从头开始编码。
相反,采用深度学习,将具有可靠标记的足够多的数据集输入到训练程序中,得到的深度学习模型便能够可靠地识别同一类别中相似的对象。如果想扩大要识别的对象集怎么办?只需使用更多数据来逐步训练模型便可。即使为了提供更多的识别类型而需要更换模型,其基础架构也可以保持不变。
目前令人信服的实施案例越来越多,被《时代》期刊评为2019年最佳发明之一的OrCamMyEye2就是其中之一:“这款人工智能设备可装在任何眼镜架上,能够识别人脸和货币,或者从条形码中大声读出文本和信息……OrCamMyEye2对于有阅读困难的人(如阅读障碍症患者)也很有用。”
2、面向音频的深度学习
当然,图像像素并不是深度学习唯一适合的模式匹配对象。音素和其他声音单位怎样?例如,最新型号的GooglePixel智能手机提供了LiveCaption(实时字幕)功能,可以将话语音频和视频音轨实时转换为字幕,并立即显示。
同样令人印象深刻的是,它利用深度学习模型完全在“边缘设备”智能手机上运行,这意味着即使完全断网,它仍然可以工作。深度学习模型通过云端定期更新,以提高准确性并涵盖更多种类的语言。
3、面向通用数据的深度学习
如果将思维扩展到多媒体数据以外,就会发现其他引人注目的深度学习应用。例如Darktrace,该公司计划利用人工智能来识别未经授权的网络入侵和网络病毒等。我虽然并不十分了解该公司的产品,但是很显然,一旦安装了该软件,它就可以通过“学习”来了解正常的网络特性是什么样的,当网络偏离正常时,软件能够及时发现并警告IT人员。
前面提到了传统计算机视觉算法与基于深度学习的计算机视觉算法的不同,以及它们处理“极端情况”和识别新对象能力的不同。与过去可能用过的传统病毒监测软件相比,深度学习方法对网络监测的吸引力显而易见。“硬编码”病毒扫描方法不能应对新的威胁,除非安装新的数据补丁(然后只能追溯)。采用深度学习方法则可以实时响应相对均值的任何变化。我想在一定程度上这不可避免会出现“误报”现象,至少最初是这样,但强大的迭代训练计划会从错误中学习。
4、自动驾驶汽车
尽管在前进的路上会遇到挫折,汽车领域的众多知名企业和初创企业仍在积极部署自主程度越来越高的汽车。例如,最近Waymo就宣布在美国亚利桑那州凤凰城郊区钱德勒(Chandler)大幅扩展其完全无人驾驶车辆的试乘计划。现在,通过Android或iOS应用可以召唤一辆WaymoOne自动驾驶网约车。
尽管切实可用的全自动驾驶汽车仍然只是吸引所有人注意的“耀眼目标”,但近期这个概念在一程度上的实施大部分可能获得成功(即使不是全部)。例如,Waymo还与AutoNation合作,将零部件运送到附近的汽车修理厂,这是定点线路应用的一个例子。在已经成熟标绘的城市和其他类似区域,也较早使用了自动驾驶汽车。是的,Uber持续在自动驾驶出租车领域进行投资的根本目标就是不再依靠人类驾驶员。在考虑使用这类服务的潜在客户时,我不禁想到了我的父亲,他15年前因肌萎缩性脊髓侧索硬化症(ALS)去世。在渐渐失去对肢体的控制并最终丧失驾驶能力后,我相信父亲当时应该会欢迎这种不依赖于人类驾驶的自动汽车。还有盲人、老人、智障人士……潜在用户数不胜数。
5、汽车之外的自主
如果将思维扩展到汽车领域之外,自主控制的潜力(以及近期实现)也会扩大。例如,在2019年年中,UPS及其技术开发合作伙伴TuSimple已经在凤凰城和图森之间进行了为期数月的无人驾驶货运卡车的测试。但货运卡车仍然只是一种大型车辆。Garmin的自动着陆系统Autoland在飞行员失去驾驶能力时,可以让一架小型飞机降落,这样的系统对乘客的价值毋庸置疑!还有Starship的送货机器人舰队,我的侄女(她是我母校普渡大学大二的学生)提到,该舰队在整个校园内的工作有声有色。她最近又跟我说,机器人有时会混乱,而且食物在机器人运送的途中很容易被人抢走(申明一下,我侄女可不会做这种事)。但是这显然可以替代成本高昂却不够可靠的人工送货服务。
6、5G设备
第一批支持5G的智能手机于2019年春季在世界移动通信大会前后发布,2020年肯定还会陆续推出更多、更先进的型号,其中可能包括苹果公司的首批5G手机。我同样期待即将面世的其他5G设备。
例如,高通在之前举办的年度骁龙技术峰会上发布了用于移动计算和通信设备的骁龙765和865(前者集成了5G基带),以及其下一代增强+虚拟现实(用高通技术术语称为XR)芯片组,XR2。它(如骁龙865)可与独立的X555G基带配合使用,实现完全无束缚的AR+VR耳机应用。作为补充,我应该提一下,高通的主要竞争对手联发科(MediaTek)最近也终于公布了其首款5G芯片组(天玑1000)更完整的细节,年初的时候联发科只是“预告”了这一产品。
7、专用处理器
结果通常在预料之中,但实现给定功能的通用处理器(运行软件或可编程硬件)与专用硬连线加速器之间的竞争却总是那么有趣。以MPEG系列视频压缩算法为例,每一代解码甚至计算密度更高的编码算法最初都是在CPU和/或可编程逻辑结构上执行的。但是,一旦标准成熟,而且当市场规模大到有必要进行额外的开发投资时,就会出现专用硬件内核来减轻系统处理器的负担。与此同时,除了原来的FPGA,还会出现能更有效利用硅和功率的ASIC或标准单元方法。
例如,当一些深度学习框架开始变得流行并出现一组支持它们的功能时,深度学习处理也会出现类似的情况。更通俗地说,你能想像没有图形处理器,而由CPU(与像素显示引擎结合使用)来处理相关的渲染功能吗?相反,如今的通用图形处理器GPGPU就像其“通用”名字所意谓的,努力想将其用途扩展到图形以外,并希望在此过程中避免使用专用的深度学习加速器。图6所示为苹果公司在发布iPhone11系列时对AppleA13SoC进行宣讲,其中列出的许多功能基本上甚至完全在专用协处理器内核上运行,而不是仅在通用CPU内核集群的软件上运行。
8、由可充电电池供电
尽管自主控制和电动动力总成并非总是同时出现,但可以肯定的是,未来越来越多的自主平台将由可充电电池供电。电池技术的开发和设计实施需要在许多看似矛盾的因素之间取得巧妙的平衡:
成本(转化为价格、客户需求、产量等。)
重量(电池组及包含电池组的系统越重,电池组每次充电的工作时间和距离就越短。)
尺寸和外形(包含电池组的系统有多大体积,如何才能轻松地将电池组塞入有限的系统空间?)
电荷密度(给定大小和重量的电池中可以容纳多少电子?)
峰值放电倍率(用于具有高浪涌电流要求的系统)
电池的最大充电次数
充电时间,包括绝对意义上的充电时间(即充电至100%)以及充电至最大可用百分比的时间(针对具有非线性充电曲线的技术)
其他
而且,随着电池技术的进步,电池的价格不断下降,行业价值不断提高,至少还有一个明显的机会值得考虑。与地热这一类资源不同,许多可再生能源是周期性而不是恒定输出的。例如,风并不总是在吹,太阳晚上也不会照耀大地(甚至在多云的天气下没有那么强烈),潮汐的强度和方向也不是固定的。作为媒介的电池则可以缓冲并消除这种不一致模式。
9、隐私保护
在面对执法和利润等压力时,苹果公司长期以来一直强烈主张保护消费者隐私。比如,利润方面的压力包括:找出用户是谁,他们在做什么,对什么感兴趣,并相应地为他们提供量身定制的广告,与其他公司共享和交换数据等等。然而,与Facebook等合作伙伴相比,苹果公司的行动有时似乎与其企业使命并不一致,特别是他们有足够的财力使公司从中得到好处。是的,加密数据和通信信道的话题再次升温,联邦、州和其他执法机构要求安置“后门”,科技公司竭力抗拒。预计这种紧张局势未来只会增强,不会减轻。
10、AI换脸(Deepfake)
“AI换脸”其实并不新鲜,早在1994年的电影《阿甘正传》中,就通过改变静态图像、视频、音频和其他数据,呈现了与最初拍摄画面不同的场景。近年来这种现象呈爆炸式增长,并且随着深度学习算法的不断应用而变得愈加真实。例如,将一个人的脸嫁接到另一个人的身体上,或产生实际上并没有说过的话语,甚至可能将这些合成的话语与视频中人的嘴部动作匹配。在美国2016年总统大选中出现的很多这类恶作剧已有文献纪录(我对它们的看法就没必要记下来了),随着2020年大选的铺开,类似的恶作剧肯定会更多。当然,这并不是美国独有的现象,俄罗斯人也对英国大选进行了“恶搞”。遗憾的是,当很多人看到社交媒体推文与他们对某人或某事的观点一致时,甚至不会去尽力弄清真相。他们会认为这就是“事实”,并在网上社区进行传播。