微软黑科技背后的技术路径 | 极客公园超频之旅

作者:张雨忻

九月,极客公园一年一度前往美国的「超频之旅」又来了。今年,我们带着腾讯创始人之一张志东,大众点评创始人张涛以及数位国内创业公司 CEO 一起前往西雅图、旧金山和洛杉矶,探访微软和 Google 的秘密实验室,深入 NASA「新地平线号」的背后,了解量子计算及微软神秘的产品军火库,一睹即将在 VR 领域带来变革的 Google Daydream,也将与前沿科学家探究引力波到底意味着什么……

而超频之旅的第一站,我们来到了微软。虽然这个巨人已从当年全球市值第一的科技公司掉落至如今的第三,但作为微软的全球执行副总裁,也是微软的技术掌门人,沈向洋却并不担心。在他看来,微软的机会来了。

沈向洋和团队的存在,就是为微软去想 the next big thing。「一家公司做到微软现在的规模,现有的业务是可以让公司继续繁荣若干年的,但难就难在,要知道下一步该往哪走。大公司的转型至关重要,很少有公司能不断从一个高峰走向另一个高峰。」沈向洋说。

WechatIMG65.jpeg(微软全球执行副总裁,沈向洋)

那么微软这个庞然大物要往哪个方向走?

「移动为先、云为先」,这是不可逆转的趋势,也是微软未来的视角。若细化到战略上来讲,微软正越来越清晰自己要做什么,那就是紧密相关的三大板块——创造更个性化的计算、重塑生产力与业务流程、构建智能云平台。而微软所有的产品也是围绕着这三大板块来进行的。

在微软的战略布局和产品背后,都离不开强技术和强研发的驱动。2016 财年,微软将净利润中接近 40% 都投入到了研发上,共计 110 亿美元。

研发几乎成为了微软的心脏。为了让微软的科学家们有更好的研发环境,微软不仅提供充足的研发经费,更重要的是,赋予科学家们在研发上进行自由选择的权利。微软研究院里的每一个人都可以选择自己的研究方向和项目组。

为什么微软把研发看的这么重要?

沈向洋的答案是:技术和研发是创造价值的引擎。

在微软,做研发有三大目标:

  • 全力推动顶尖的计算机科学向前迈进。过去 25 年,大的国际会议中获奖最多的机构是微软研究院,其后才是 MIT 等。

  • 尽快将技术和科研成果快速转化为微软产品与服务。

  • 更努力的发展颠覆性创新技术,并且从中发掘创新的商业机会。

HoloLens 的前世今生

当你沿着技术的脉络向前看几年,你或许就有机会做出伟大的产品。而 HoloLens 全息眼镜就这样一个伟大的产品。

HoloLens 全息眼镜做了两件伟大的事情:它本身是一次计算能力的突破,其计算能力非常强大;然而更了不起的是,它是第一次能够把真实世界和虚拟世界融为一体的产品,就是所谓 MR 的产品化。

MR 中对现实世界的重建,靠的就是计算机视觉技术。计算机视觉的实验做了很多年,但仍然有很多不足。所以,多年来都致力于研究计算机视觉的沈向洋对 HoloLens 全息眼镜的尝试非常惊叹。

但 HoloLens 全息眼镜也不是一蹴而就的,这背后需要的是长期的技术积累,在这个过程中,不断完成技术和产品的交互。

2000 年左右,微软开始就计算机视觉做基础性的研究,包括声音、动作跟踪以及面部识别能力的探索。2010 年,这些技术首次实现了产品化,Kinect 出现了。随后,在这个动作追踪产品的基础上,微软的剑桥研究院就在 Kinect 的基础上做了 Kinect Fusion,也就是用多个 Kinect 在真实物理世界中重建三维模型。2012 年,在真实环境的基础上,微软加入了虚拟图像,形成了 HoloLens 全息眼镜的雏形——HoloDesk。随后,直到 2015 年,HoloLens 全息眼镜终于面世。

WechatIMG67.jpeg(张志东体验HoloLens)

HoloLens 最了不起的,还是让你的视野成为你的显示屏,这让未来有很多想象的空间。但产品也是非常难做的,在 MR 这件事里,产品化尤其难。

微软云平台背后技术能做什么?

云是微软非常坚决要做的一件事,纳德拉在成为 CEO 之前,便是微软云业务的负责人。

其实真正的云服务,是在数据的基础上再做更多探索。所以,微软推出了「微软认知服务」,在语音、视频、图像、文本等数据形态上,做更多解析处理,使其成为每一位开发者都能用的人工智能基础服务。

除了 to B 的服务,微软也在云服务上做了一些 to C 产品的探索。比如,曾经一夜爆红的 how-old.net,便是让用户上传自己的照片,然后随即测算出用户的年龄。

WechatIMG66.jpeg

www.captionbot.ai 这个服务则在计算机视觉上更进一步,当用户上传一张照片,它能解析出照片里呈现了一个怎样的场景和故事。

基于深度学习的图像识别是微软在计算机视觉上要走的下一步,而深度学习的基础就是深度神经网络。神经网络可以增加解析的层次,当解析层次变得更多,便可以大大提高识别的精度。

沈向洋预测:5 年内,计算机语音识别一定能超过人类;10 年内,计算机图像识别一定能超过人类;而真正的认知理解至少还需要 20 年。但利用神经网络做图像识别已经比较成熟。如今,微软的 ResNet 图像识别已经能达到 152 层,而 Google 的 GoogleNet 为 22 层。

创造未来的量子计算

微软预测,量子计算将成为下一场技术变革的突破点。因为,量子计算可以突破摩尔定律的瓶颈,将计算能力提高万亿量级。

直观的来说,如果一台量子计算机的单次运算速度达到目前民用电脑 CPU 的级别, 那么一台 64 位量子计算机的速度将是目前世界上最快的『天河二号』超级计算机的 545 万亿倍。

但是,至今还没有人做出一台真正的量子计算机,因为量子最大的问题在于,它不稳定,甚至几秒钟的时长都无法保持稳定。所以,目前的量子计算都还处于实验室阶段,量子计算机也非常早期。

WechatIMG70.jpeg(嘉宾在用三星 NOTE 7 做笔记)

微软一直在做量子计算的研究,已经有十几年的积累。2006 年,微软在加州大学设立了 Station Q 研究组,专门进行量子计算相关项目的研究。为了加快项目进展,还引入了许多外部人才,包括曾领导过多个英特尔处理器设计的 Douglas Carmean。

但依然有很长的路要走。今天,全球最强大的计算机也仅仅是相当于 50 个量子的运算能力,而沈向洋相信,人类终能设计出上百万量子的计算机,我们需要的只是资金、时间以及能够沉下心来做研究的科学家。

沈向洋预测:未来的 5 到 10 年,初级的量子计算机已经可以进入实验。而 15 年内,我们就有可能拥有真正的量子计算机。

Abraham Lincoln 曾说,预测未来最好的方式就是创造未来,这也是沈向洋和微软笃定的。