个人计算的未来十年:泛用与隐形

其实我很久之前就想写这么一篇文章,来聊聊我对未来科技发展方向的看法。但「预测」这种事,总是被「准」或「不准」,「正确」或「错误」严格地衡量着。这让人在对待这件事的时候就不得不保守一点、审慎一点。

我完全相信,以自己对科技领域的了解,所做出的预测,在十年这样一个时间尺度上,有极大的可能无法成为现实。


但我还是想写这么一篇,更多的不是预测,而是展望。站在今天的角度上遥望未来,等到 10 年之后再回头看看今天所想,若是能有一些反思,得到一些收获,产生一点意义,就可以说是其价值所在了。


从十年前说起

既然要往后看十年,最有意义的参照系,无疑是回过头去看,过去的十年发生了什么。


十年前,我将自己的 MP3 换成了 MP4。但视频还不像今天一样,是数字内容的最主要构成,99% 的情况下我只是用它听歌而已。

家里购入了第一台数码相机,因为使用频率不高,每次要用的时候,必须在前一天晚上记得提前将其电池充满。1200 万像素,现在再回头看其在光线条件不太好的环境下拍的照片,只能说是惨不忍睹。

PSP 是那时的我最想拥有的数码设备,当时我还不知道 iPhone 的存在。


十年前,PC 已经显得过于稀松平常,我在爸爸的笔记本电脑上玩 dnf,但彼时最火的 PC 游戏大概是魔兽世界。

当时虽然我家的电脑已经买了有 5 年之久,但在 15 年前说出「我们这种中年人还学什么电脑」的妈妈,直到 10 年前,终于无法抗拒计算机和网络的力量,开始学习使用电脑。

过程是艰难的,除去 Windows 复杂的交互逻辑导致她今天都有很多功能不会用之外,「如何控制鼠标将指针移向正确的位置并双击」是她所遇到的第一个不可逾越之天堑。


十年前,我和一个朋友在放学路上进行过一场讨论:「你是想要一个电脑、一个手机、一个 MP4、一个 PSP、一个相机,还是想要一个设备,有它们全部的功能?」

后者自然就是今天的智能手机。十年之后,消费级的数码相机已经濒临灭绝,用 iPhone 进行专业的摄影创作已经成为了一种风格和潮流,掌上游戏机也几近死亡,泛用化的「一体机」革命迅速席卷了世界。

十年前,我是「分体机」的忠实信徒,朋友则认为「一体机」是更理想的状态。直到今天,我也认为「分体机」的存在是必要的,我会买游戏机、认为 Mac 和 Win PC 应当被用来完成不同的任务,Apple Watch 需要可以独立工作。


但对于未来十年,我确信会发生的第一件事就是:计算设备泛用化的大潮,会进一步席卷世界。


泛用计算的第一步:voice-first

我最初了解到 voice-first 的概念,大概是两三年前,Echo 问世将满一年的时候,让人已经无法忽略其存在。

当时我对这个想法嗤之以鼻,因为在中文语境下的 Siri 有多么无用,大部分中文使用者应该都有所体会。换到 iPhone 6s 之后,因为其对「Hey, Siri」的全局支持,以及我开始把自己的主力音乐服务换到 Apple Music,我开始尝试使用英文 Siri。

时至今日,我平均每天大概会对 Siri 发出 10 - 20 条指令,问天气、打电话、查单词、控制音乐、进入健身、设定时器和闹钟、搜索…… 我仍不是 voice-first 的推崇者,但我认为语音会是个人计算泛用化的第一步,并将会成为计算机交互的重要组成。


语音交互界面要想扩张进更多用户的日常生活,或许需要在设备之间有更好的联动,或许需要云端的协同,但在可见的未来,语音交互将会成为第一个通用于不同设备的 UI。

我对 iPhone、Apple Watch、Mac、HomePod 说的都是一样的自然语言,它们都可以理解,在渐渐习惯之后是一种非常奇妙的感觉。你生活的每时每刻,身边都存在着一个计算设备,随时等候你的指令。

对于 Siri 来说,它还需要增强对语句的理解,囊括更多功能,以及最关键的,在不同设备之间进行协调,将不同的指令分配到最合适的设备上。但这场界面之革命无疑已经开始成为未来 10 年的焦点。


语音与听觉的交互会在未来 10 年发生革命,但这不意味着视觉就会原地踏步。未来 10 年个人计算最翻天覆地的变化,我认为仍然会发生在视觉上。


视觉进化:从全面屏到 AR 眼镜

我在之前的那篇《iPhone X: A step beyond》里是这样理解「全面屏」的:

iPhone X 真正所关乎的、引领的,从来就不是什么「全面屏风潮」,而是「making the physical object disappear into the experience」这件事。苹果所定下的未来 10 年的目标,是让体验与现实之间的边界最终消失。


过去的 10 年,是移动计算的 10 年。计算机从一种相对稀缺的资源,变成了人人触手可及,并与之不间断进行交互的东西。

而未来的 10 年,或许更远,计算机在形态上的最大革命,将会是其「物理存在」的消失。计算机要渐渐让人感受不到其物理存在,以内容为核心来进行呈现。全面屏是这件事的第一步。

现在的我们正处于移动化的尾巴上,Apple Watch 让我们接电话时不需要找手机,早上醒来第一件事是抬起手臂看通知,用户的 24h 正慢慢被填得严丝合缝。


下一步是什么?我们需要呼之即来的界面,连手臂都不用抬就可以看到丰富的信息,我们需要尽可能让我们感受不到其存在的硬件,更轻、更能适应尽可能多的场景,不需要频繁地动手去摆弄它。

AR 眼镜是答案,可以长时间不取下的 AirPods 是答案,甚至 AR 隐形眼镜会是最后的终极答案(这可能不是 10 年的问题了),设备会一点点隐形,消失进感官之中。


刘慈欣在三体里描述的「超信息社会」其实算是一次相当准确的预言,那些不断从桌子和墙壁上呼出信息窗口的「未来人类」,跟今天无时无刻不在用智能手机的我们有着异曲同工之妙。

只不过我不认为技术发展的方向是把所有物体的表面都做成显示屏。与「hack 所有的物体」相比,直接「hack 眼睛」是更简单的办法,而「hack 视觉」的未来,就是 AR 眼镜。

包括 Dynamic Land 正在做的事情,我认为也在一定程度上预示了 AR 的未来,你所目及的一切都可以被 mapping,都可以被增强。这会是 AR 的力量。


我认为苹果的第一代 AR 眼镜会和 Apple Watch 一样需要结合 iPhone 来使用。因为 AR 眼镜是理想的「终极显示设备」,却并非理想的「计算设备」,其体积和重量所受限制的程度,远超过去的任何一种计算设备。

AirPods 有可能在未来支持独立工作,因为处理声音所需要的算力远低于图像。而 AR 眼镜需要经历一个漫长的发展进程,这个进程可能不止 10 年,但当其最终进化为完全体,AR 隐形眼镜会造就图形界面的终极形态。


但即使是终极形态的 AR 眼镜,也仍然避不开这个问题。AR 眼镜所具备的「显示性能」越强,与之「计算性能」受限制的矛盾就越凸显。所以我认为 AR 眼镜会成为一种「泛用显示设备」,我们将可以像控制声音的 AirPlay 一样,把任何智能设备的图像投到 AR 眼镜上。


用户需要一个中心:计算设备还是显示设备?

我们很容易想象两种未来。

在第一种未来里,智能手机是个人计算的中心。它在形态上一如今天的 iPhone,或许更轻更薄,有着一块没刘海的「全面屏」。

而当你把 iPhone 放到某个 Hub 里,iPhone 便如 Nintendo Switch 进入「TV 模式」一般,进入「macOS 模式」,连上键盘鼠标触摸板,驱动两块 27 寸的 5K 屏,完成桌面级的工作。你也可以把 iPhone 和电视连起来,进入「tvOS 模式」,你可以拿起手柄玩游戏,完成一切今天 Apple TV 的工作。你每天带着 iPhone 往来于家、办公室、咖啡馆,却有着高度统一的体验。

这种未来距离我们非常非常近,近得触手可及,已经有很多应用正预示着这种未来。可以运行 Win 10 的高通芯片、三星手机的「桌面模式」、iOS 上的 TV app 与 AirPlay,都是对这种未来的预演。包括最近所吹起的「macOS 将和 iOS 开始互相兼容」的风。


另一种未来里,AR 眼镜是个人计算的中心。你 24 小时不间断地戴着它,不同设备计算的结果汇集于 AR 眼镜,作为泛用显示设备的 AR 眼镜成为了个人计算的中心。

在工作的地方,AR 眼镜所显示的是专业设备的界面,在室外,AR 眼镜所显示的是智能手机的界面,在家里,AR 眼镜所显示的是家庭计算设备的界面。

这种未来或许不会很快成为现实,从概念的角度来说 AR 可以完美代替几乎一切的显示设备,但 AR 需要多久才能发展到这个程度,是难以预测的问题。


所以跳出这两种未来的情况,根本问题还是:泛化的消费电子技术会怎么发展?

移动芯片会渐渐取代「桌面级芯片」吗?

AR 眼镜的显示模块能顺利发展到「Retina」的程度吗?

比移动芯片更微型的芯片,比如 W 系列芯片,能最终 Pack 进足够多的功能,像今天的移动芯片一样满足大部分普通人的计算需求吗?

网络性能会非常普遍地做到极低的延迟和极快的速度吗?

在这些问题被解答之前,轻易地说上面两种未来中的某一种会成真,都会过于缺乏依据。


还有一个很关键的问题,输入方式会何去何从?

我认为键盘在未来 10 年、20 年,以至于在强人工智能出现之前,都会是最主流的「专业」输入方式。无论是机械键盘、触屏上的软键盘,还是未来可能出现的通过传感器 mapping 手指之运动加上 AR 影像来进行输入的终极虚拟键盘。

或许苹果会想在未来 10 年先干掉机械键盘,把键盘彻底变成一块泛用的触摸屏(Touch Bar 就是这件事的第一步),但难以改变的是「通过 26 个按键来进行文字输入」的方式,

这是 Apple Watch 在今天,即使有了 LTE,仍然难以独立工作的关键性问题,我相信这同样会是 AR 眼镜发展过程中的一道坎。

或许这两种未来会同时出现,AR 眼镜会成为新的「智能手机」,手机会作为今天类似 Mac Pro 一样的专业设备存在,又或许云会变成未来之 Mac Pro,但我认为方向已经非常清晰了:

单一之计算设备要承担越来越多的工作,变得越来越泛用。呈现内容的载体,显示设备和音频设备,则会变得越来越隐形。


专有计算设备的倒塌:游戏机和摄影机

个人计算的泛用化会带来什么?过去的十年我们目睹了 MP3、掌上游戏机、消费级数码相机的消亡。未来十年,智能手机的战车会继续向前碾压,把今天的专有计算设备进一步碾碎。

iPad、智能手机取代收银机、POS 机的进程已经开始。Square 正在北美把 iPad 改造成非常全能的收银设备。中国呢?各种第三方结算公司推出了由安卓手机改造成的微信、支付宝、银联多合一 POS。


但最让我感到担忧的问题还是:十年之后,游戏主机还会存在吗?

我甚至一度不是很愿意去思考这个问题。十年之后,1000 美元的 iPhone,性能会不会超越 300 美元的 PS?我认为答案是肯定的,今年的 A11X 芯片的性能不出意外是会超越 Switch 了。之前在知乎上看到有人预测说 PS5 会使用 ARM 架构的芯片,也算是有理有据。移动芯片按照现在的发展速度,10 年内完全有可能取代游戏主机。如果第三方厂商开始背叛,目前主机体系的分崩离析也就一点都不奇怪了。

但作为玩家,我最在意的并不是游戏主机还会不会存在。我最在意的是,「主机游戏」这种游戏设计、开发、销售、运营的一整套模式,会不会消失。

我一点都不怕一个「只有手机」的未来。如果我仍然能在 App Store 上花 60 美元买到一个「主机大作」,那甚至是比当下更让我觉得理想的情况。

独立游戏已经在 App Store 开花结果了。各种小制作的游戏可以以 5 美元、10 美元的价格立足于移动平台,让我对手机取代游戏主机的未来还是抱有一丝乐观态度的,毕竟这终究是玩家的需求可以决定的事。


而另一个角度呢,因为计算设备的泛用化,继而产生的中心化,也势必改变摄影和录音。

当然,这两种工作在今天就已经对电脑有着极高的依赖性了,但移动设备性能的增长会进一步增加这种依赖。手机的 SoC 赋予了手机摄像头非常丰富的能力,而这种赋能也可以用在专业内容的制作中。其在未来 10 年不说颠覆,至少会相当程度地改变摄影设备。将专业内容制作过程中异步的计算(先拍摄再后期),变得更为同步。


巨头之战:苹果和谷歌

说了这么多,坚持读到这里的你可能发现了,云呢?个人计算的未来十年,难道与云无关吗?

一种十分肤浅的思考是,随着技术的发展,个人计算设备会不复存在,一切计算和储存都在云端进行。这当然是几乎不可能的,除非在一个 100% 的极权社会。

因为云端计算如果要考虑加密、要考虑隐私保护的话,其会丧失掉自己的大部分优势。好比如果谷歌不看你的照片,Google Photos 这一免费云相册服务对它来说就不会有什么意义。


未来 10 年,云计算当然会是个人计算的重要组成,甚至会越来越重要。因为未来 10 年最热门的技术话题之一,AI,是和云密不可分的。苹果对云有着非常消极的保守态度,会坚持以个人设备为核心驱动体验。但即使如此,作为其第一个跨平台交互例子的 Siri,本质也可以说是基于云端的。而谷歌喊出了「AI-first」的口号,势必要围绕云计算来打造体验。

所以我觉得苹果和谷歌的这场旷世之战,会在未来 10 年继续打下去。谷歌已经体现出了非常多优势,Google Assistant、Google Photo、Google Lens… 谷歌产品进化的核心就是要收集尽可能多的数据,训练自己各种各样的算法,以从软件的性能上,完成对苹果的超车。

为什么不提亚马逊?因为亚马逊的服务对象,从来都不在消费者这端。亚马逊本质上还是一个从其他公司手里赚钱的公司。其服务消费者的目的,是为了开发出更好的技术并让消费者对这种技术所带来的体验习以为常,然后再把这种技术提供给更多商业公司,这样才可以解释为什么它在如此长的时间里都并不纠结于零售业务的利润。这里就不过多赘述了。


云计算、数据科学在未来 10 年会有突飞猛进的发展,但发展的同时也时刻伴随着危机。因为云计算可以将大量用户的一举一动都监控起来,进而结合算法和 AI 挖掘出数据之规律,以及背后的人类行为和思考的规律。掌握了规律就可以分析出弱点,这样的能力被掌握在少数公司,甚至是少数高层的手中,其危险性是不言而喻的。我之前花了很多时间去想如何解释这件事,Facebook 最近所面临的危机省去了我的工作。


至于 Facebook 的位置,不做硬件的厂商是没有资格参与到个人计算形态之争的,而当 Facebook 把未来押注到 Oculus 上的时候,它就已经偏离航线太远了。


我们也不会走得太远:VR 的危险处境

虽然我在两年前就说,自己不会再写 VR,相当于给 VR 盖棺定论了。但既然说到了 Facebook 和 Oculus,我就给这口棺材再铲上一层土。


今天的 VR,可以说只解决了一个问题。就是如何让画面随着人的运动而进行实时的追踪,并降低延迟。其他的层面,几乎都是从其他领域拿过来的现成的技术,视野靠光学镜片,画面质量靠高分屏,交互靠之前体感游戏的那一套。

而「让画面随人的运动而实时调整」恰恰是 AR 眼镜需要解决的关键技术问题之一。所以今天的那些 VR 产品,存在唯一意义可能就是给 AR 眼镜做技术储备。而今天这种 VR 头显的产品形态,在 AR 眼镜的时代来临之后,是可以被 AR 眼镜所轻易取代的。


VR 的终极形态是要蒙蔽并 hack 人的一切感官。AR 眼镜仅仅是 hack 视觉,AirPods 则仅仅是 hack 听觉。这是 VR 和 AR 的本质区别。

VR 想创造的,是让人「忘记自己身处于现实之中」的体验,这绝非一件通过覆盖视觉和听觉就可以做到的事,你感受不到太阳照在身上的暖意,脚下没有泥土柔软的触感,鼻子里闻不到花香,VR 如何让你确信自己身处海拉尔王国?所以根本不存在什么「真沉浸式体验」,光靠你眼睛所看到的,耳朵所听到的,永远不可能构筑出一个完整的「虚拟现实」。

今天的所谓「沉浸式体验」,是基于人类理性思维的 hacking,跌宕起伏的故事、扣人心弦的情节、合理又猎奇的背景、通过互动机制的设计让你投入到小说、电影、游戏所营造出的那个世界中去。而 VR 想要 hack 的,是人类的官能,VR 想要通过蒙蔽视觉、听觉、嗅觉、运动神经、触觉,来营造出所谓「另一个现实」,其荒谬性是十分明显的。


更何况,这还不完全是信息科学的问题,背后还有更多的生物学问题需要解决。即使开发出能够完全蒙蔽人类感官的 VR 设备,人会被这样的设备杀死吗?艺术作品里对这样问题的探讨太多了,在真正的「脑机接口」开发出来之前,我不觉得讨论 VR 有任何的意义。


后记

二月新版博客网站上线之前,就开始想写这篇文章,当时是想作为新版博客的第一篇文章,如「时间胶囊」一般抛下一支锚,等到 10 年之后再回头看它,期盼能获得一点什么收获。之后每天跑步的时候都在构思,全篇的结构也推倒重来了两三次,最后写成了上面的这样的一篇文章。

但就当我写完这篇文章的时候,我突然意识到,它不可能是一颗「时间胶囊」,等到 10 年之后再被启封。因为可能仅仅一周之内,我就又会冒出一些新的想法,进一步修饰这篇文章所阐述的「预言」。


所以这篇文章,是预言、是展望,也是对当下我自己想法的总结和梳理。我真诚地希望技术的发展,相比我在这里所阐述的这些,能走得更深更远。

May it will eventually go to someplace which could have never been imagined, not in my wildest dreams.

上一篇 关于 HomePod 实际体验的几点补充
下一篇 苹果想用技术颠覆课堂,但这正是其在过去五年输给谷歌的原因。