Exynos 8890和骁龙820都已经发布,与两者相比,Kirin 950目前在那些方面处于落后呢?

首先是GPU部分的差距

使用了Adreno 530的骁龙820暂且不说,麒麟950整合了Mali图形最新一代的高端型号Mali-T880(Mali-T880允许从一到十六颗核心的堆叠),但只是MP4规格。相比Exynos 8890的T880MP12,后者理论上图形处理能力是前者的三倍。即使对比上一代Galaxy S6/Note 5使用的Exynos 7420,也达到MP8规格(Mali-T760核心)。

所以,麒麟950在GFX Bench-3测得的真实性能如下图:

对比骁龙820:华为麒麟950到底差在哪?

对比骁龙820:华为麒麟950到底差在哪?

Kirin 950的图形性能有一个比较接近的参照对手,是今年5月份联发科发布的Helio X20,同样采用Mali-T880MP4。联发科共同运营组长朱尚祖对媒体宣称,“ 麒麟950不过是Helio X20的水准”,大致没错。

当然,令人欣慰的是,Kirin 950采用了台积电16nm FinFET+ ,也就是今年iPhone 6s第三方测试成绩略优于三星14nm的工艺。麒麟950整合的Mali-T880MP4图形核心数量虽然少,但频率提升到900MHz,竞争对手却是多核心+低频的方式。如此做法,麒麟950的思路跟联发科相似:

大部分真实的日常应用里,图形芯片并不是性能瓶颈,发挥图形芯片所有核心的的潜能,也几乎不存在这种情况。所以,集成更少的图形核心以减少芯片面积,将节省的晶体管资源运用在其它部分,麒麟950才有了整体的显著提升。

至于三星Exynos在GPU部分暴力堆料,十二颗核心的Mali-T880 MP12据说是为了 “沉浸式的3D游戏和虚拟现实应用体验做准备”。不知道华为有没有这样超前意识,下注未来市场,像三星早已规划和开发出了自己配套VR设备。

其次是应用处理器部分

麒麟950采用了ARM公版设计,真实应用效率有待检验。

移动芯片,主流芯片厂商像MTK、三星、华为会采用ARM官方标准微架构“Cortex-A” ,即ARM公版设计。尽管公版设计经过了ARM相关测试,厂商可以节约开发和时间成本加速产品上市,但其带来的负面影响也显而易见,就是芯片的同质化,并最终反映到智能手机的体验上。而像高通和苹果,拿到ARM授权但使用自主设计微架构大核心,芯片效率和整体性能处于较明显的领先地位。

三星前不久发布的Exynos 8890首次使用自主设计的“Exynos M1”核心,已经曝光的测试数据显示,其单核心提升明显,三星也对外宣称Exynos 8890整体性能相比上一代Exynos 7420性能提升30%,功耗则下降10%。

A53和A57混着用,组成所谓的“big.little”大小核结构,简单任务时A57核心休眠只启用A53核心,复杂任务时A53、A57一起上,不幸的是,A53和A57的指令吞吐和缓存是互相独立的,如果某个应用需要在A53和A57之间切换运行,A53和A57核心之间切换延迟最多可达毫秒级,别看是毫秒级,反映智能手机上最直接的体现要么就是应用的卡顿,要么就是功耗过高,惟一折中的方法就是利用制程来缓解

这也是为何同是使用ARM公版设计,采用14纳米FinFET制程的三星Exynos 7420整体表现(能耗比)优于同样使用ARM公版设计,但采用20纳米制程高通810的主要原因,而高通810备受诟病的所谓“发热”背后则是ARM公版设计和制程落后两方面因素叠加的结果,反映到市场竞争中,则是高通痛失三星Galaxy S6旗舰机芯片订单。

更重要的,拥有芯片架构自主设计能力,也意味着能够以更大的自由度去优化特定应用程序的性能或者功耗表现。这是与竞争对手拉开差距的关键。

如果说苹果是采用自主芯片架构在智能手机竞争中受益的典型代表,那么今年高通810的悲剧则是反面典型。高通之前一直采用自主设计的微架构,但因为去年苹果率先推出 64 位 CPU 打乱了原有的研发计划,今年直接拿公版架构过渡、匆忙推出了旗舰骁龙810,再加上使用了较落后的芯片制程工艺,功耗和发热失控,几乎导致整个Android阵营经历了“失去的一年”。

最后,没有整合最新的基带,以及缓存架构的落后。三星Exynos 8890和高通骁龙820整合的基带都支持Cat.12(下载速度达到600Mbps)和Cat. 13(上传速度达到150Mbps),通信设备出身的华为居然还停留在仅支持Cat.6的老款Balong,与早前的麒麟920/925、930/935 属同样规格。其实华为已有新一代Balong基带达到支持Cat.12和Cat.13水准,为什么没有用在最新一代处理器上?

另外不得不提的是,big.LITTLE大小核心双架构已经逐渐普及开来,从三星Exynos 5410到高通骁龙810莫不如此,而它们之所以能做到不同架构核心共存、协同,最关键的地方就是缓存一致性互连架构CCI-400。

ARM在今年早些时候宣布新的高端CPU Cortex-A72、GPU Mali-T880的同时,还推出了大刀阔斧改造过的新一代缓存一致性互连架构 “CoreLink CCI-500”,引入了一系列新功能。在很大程度上,它的诞生要远比 A72、Mali-T880有意义得多。

CCI-500最大的变化就是增加了一个“探听过滤器” (Snoop Filter),从而使探听控制不再局限于单个簇内部的CPU之间,可以扩展到整个处理器的所有核心,也就是A72/A57、A53全部覆盖。这样一来,处理器需要执行的缓存查询工作量就会大大减少,效率自然随之增加,最终的好处就是互连过载降低、CPU核心空闲时间更多。

互连所需的内存带宽也会因此大幅度减少,ARM宣称CPU一端的内存性能可提升30%。ACE(AXI一致性扩展)端口的数量也翻了一番,系统带宽因此增加一倍,可轻松搞定4K显示输出。四通道128-bit内存位宽也不再是问题。骁龙805是第一个支持四通道内存的移动处理器,但用的是高通自己设计的非一致性互连架构。以后,谁想做都可以。

按AnandTech的原话来说,采用了A72、Mali-T880 GPU、big.LITTLE架构的麒麟950,本应该也同时用上最新的CCI-500架构数据总线,因为它们三者都是今年2月份一起发布的。但不幸的是,CCI-500发布的时候,已经不在麒麟 950开发过程中(这意味着下一代麒麟很快发布,950只是过渡?)。所以麒麟950还是停留在目前 big.LITTEL结构SoC都使用的CCI-400。

当然,华为麒麟950也有比肩竞争对手的特性。

像独立设计的ISP和DSP、i5协处理器、首个同时支持LPDD3/LPDDR4混合内存。这些并未让太多人关注的“边缘部分”,在拍照效果、影音播放、多种传感器调度省电等日常使用上有重要增益。

适度追求硬件指标领先,更加关注SoC的真实体验,华为的设计思路和迭代方向,在一众Android厂商中是非常难得的。如果后续实现自主设计微架构,图形芯片“堆料”,再加上现在已能用上台积电最先进的制程工艺,像苹果一样深耕影响真实用户体验的硬件技术…

华为下一代差异化处理器,将真正震惊世界。