处理器多核功耗多核技术将是未来处理器发展的主要趋势_我的网站
www.l79.org

处理器多核功耗多核技术将是未来处理器发展的主要趋势

从上世纪70年代微处理器诞生以来,性能、功能和功耗表现一直按照摩尔定律在提高。但是从大型机时代一直到现在的移动互联网时代,不同的应用对各类处理器提出了非常不同的需求,由此产生了种类繁多的微处理器。由于技术的进步和具体应用的需求变化,处理器的发展有点纷繁复杂的味道。

以多核提升性能功耗比

Tensilica亚太区销售总监Sam Wang声称,多核技术将是未来处理器发展的主要趋势,包括同构和异构多核技术,而不是一味追求更高的处理器主频。

多核处理器把多个处理器核集成到同一个芯片之上。得益于片上更高的通信带宽和更短的通信时延,多核处理器在并行性方面具有天然的优势。通过动态调节电压/频率、负载优化分布等,可有效降低功耗。研究表明利用大量简单的处理器核提高并行性可以取得更好的性能功耗比。

Sam Wang认为这种趋势是多种因素综合决定的。首先随着半导体制造工艺进入深亚微米时代,增加芯片中门电路的边际成本变得越来越小,因此我们可以在单个芯片中集成更多的功能。考虑到漏电功耗对整个芯片功耗的影响,靠提升主频来提高单核性能不如将任务分配到运行在较低主频的多颗处理器上运行,这样设计团队可以更好的控制整个芯片的功耗。而后PC时代到来,越来越多的芯片将用于电池供电的设备,3C设备将在单个手持或口袋设备中融合在一起,使得低功耗成为芯片设计的重要需求,而不再是摩尔定律带来的“免费赠品”。

正是这些方面的巨大优势,所有的处理器厂商都推出了多核处理器产品,从最高端的服务器处理器到对功耗非常敏感的嵌入式处理器,都走上了多核处理器的道路。在移动处理器市场占据绝对份额的ARM发布的Cortex A9是它首个多核心处理内核,由此所有的主流处理器架构都走上了多核化的道路。

即使在DSP领域,这一趋势也有体现。德州仪器半导体事业部业务拓展经理丁刚就表示,在某些苛求高性能的应用中,DSP多核方案会越来越多。

回顾整个计算机架构发展史,从大型机到x86架构的PC,发展趋势从来都是以分布式的多核运算替代高主频的单核架构,因此相信嵌入式微处理器设计也将按照这样的趋势发展下去。

多线程也是一个方向

在嵌入式处理器领域,MIPS的MIPS34K内核是目前业界唯一可公开授权得到的多线程CPU内核。MIPS中国区市场总监费浙平认为多核处理器和多线程技术是未来嵌入式处理器的一个方向,因为多线程处理器在一个CPU核上对软件模拟出两个逻辑处理器,以极小的硬件代价获得相当比例的总体性能和吞吐量提高。这可以算是MIPS的一个构架方面的优势,因为它的主要对手ARM还没有支持同时多线程技术的内核产品。

原来的ARM处理器内核确实没有支持同时多线程技术,但ARM市场部经理Kumaran Siva在Linley技术处理器大会上表示,ARM会根据不同领域的应用需求来支持多线程技术,首先可能会用于网络和通信领域。网络和通信市场是对处理器要求最高的领域之一,多核多线程属于基本的要求。在思科、华为等通讯设备商的网络设备里,大量存在几十核的微处理器。当然在高性能领域,ARM还是一个追赶者,它的优势还是在低功耗方面。

多核和多线程技术的联合使用是目前处理器理论和实践中能实现的最强并行处理技术,多核和多线程技术的软件基础是多线程编程,如何分配和管理任务的线程,以及由此带来的性能开销都是整个计算机科学最核心的研究课题。

超标量超流水线技术闯进嵌入式领域

超标量和超流水线技术现在广泛用于高性能通用处理器上。在嵌入式市场,功耗从来是重中之重,这些技术应用的相对较少。但是随着半导体生产工艺的提高和对高性能的个人/家庭娱乐/信息终端的巨大需求,嵌入式处理器的主频和性能都在大幅增长,其中最大的代表就是ARM的Cortex A系列,原来的ARM11处理器一般主频只能达到500MHz左右,而现在高端手机使用的Cortex A8已经达到了1GHz主频,A9更上层楼,最高可达1.5GHz,最新发布的A15内核可以达到2.5GHz。提高主频的方式主要靠两个方式:制造工艺的改进和拉长的流水线。这种主频倍增的情况显然是两种方式共同作用的结果,肯定也加入了大量的分支预测电路做到乱序执行,否则新的内核也不可能达到原来内核的3~5倍性能。而MIPS的费浙平也自豪地宣称,仅使用普通设计流程和物理IP,MIPS74K 主频在TSMC 40nm 工艺下能达到2.4GHz以上的主频。MIPS74K正是双发射不对称乱序执行超标量处理器,拥有业界最高单核全速性能。

显然,在服务器和桌面市场曾经发生过的主频和性能大战在嵌入式领域又要上演了,手机和平板电脑市场是其主战场,高主频多核心的处理器是所有消费类电子产品的主要卖点。当然由于嵌入式产品的特性,功耗永远不会被各大厂商忘记。英特尔甚至为了降低产品功耗进入嵌入式市场,把Atom处理器的分支预测电路都阉割了,真可谓是殊途同归,目的当然是为了达到特定应用的要求。

DSP和MCU的指令扩展

指令集构架属于计算机体系结构的核心,它的发展历程也就是整个处理器的发展史。历史上的计算机分为CISC和RISC两种指令集构架。这两种指令体系在80和90年代曾经有大量的争论,现在RISC处理器占据了绝对主流的地位,就是以CISC面目出现的x86处理器也早开始使用RISC内核。

指令体系的进步可能是计算机体系结构最核心的改进,也是难度最大的部分,近年来也难以有实质的突破。但在RISC微处理器发展过程中,产生了超长指令字(VLIW)微处理器,它使用非常长的指令组合,把许多条指令连在一起,就可以并行执行。VLIW技术在DSP领域得到了实际广泛的应用,TI、ADI和CEVA的DSP内核都采用了这种指令构架。

德州仪器的丁刚和ADI的张铁虎都认为:SIMD (多通道结构和单指令多重数据)和VLIW (超长指令字)将会在新一代高性能DSP处理器中占据主导地位。

Tencilica的Sam Wang指出,传统的固定架构处理器靠提升主频来提高性能,而Tensilica的可配置处理器通过添加专用指令提高数据处理的效率,从而在较低主频下达到相同或更高的性能。

飞思卡尔微控制器事业部高级系统工程师 Charlie Wu则认为,32位MCU也会增加DSP所具有的乘累加指令,但是只是整数指令。这样MCU也具有一些DSP的功能,可以进行一些对实时性要求不高的滤波器计算。

爱特梅尔公司亚太区战略营销总监曹介龙则强调,随着新一代具DSP功能的MCU的面世,入门级DSP和普通MCU的差别变得越来越小,界限也变得越来越模糊。爱特梅尔具有整数、定点DSP算法、单周期乘法和累加指令的32位AVR MCU就是一个很好的示例。

异构微处理器日趋流行

多核处理器可以分成对称多处理SMP和非对称多处理AMP,而非AMP又可分为异构和同构。异构多处理使用不同类型的处理核心运行不同的应用,最典型的搭配方式有MCU+DSP、DSP+FPGA、MCU+FPGA等。异构多处理的好处是可以同时发挥不同类型处理器各自的长处来满足不同种类应用的性能和功耗需求。应用在索尼PS3游戏机上的CELL处理器就是这样一种典型的异构多处理结构,这种处理器内含一个PowerPC处理器核心和8个SPE单元,当时给整个业界带来空前的性能和不凡的功耗表现。而且为了让异构处理有统一的标准,Kronos组织发布了OPENCL标准,可以协调不同的处理单元共同计算。

前面提到的处理器里面增加DSP指令扩展,也可以看作是一种异构多处理,等于把MCU和DSP融合在了一起。而NXP即将推出集成Cortex M0和M4的所谓非对称多处理器,也是这一趋势的最佳注脚。

ADI技术市场经理张铁虎认为:“微控制器是低成本的,主要执行智能定向控制任务的通用处理器能很好执行智能控制任务,但是它的缺点就是数字信号处理功能比较差,而DSP则能弥补这一功能缺陷。许多应用都需要兼具智能控制和数字信号处理两种功能,因而,把DSP和微处理器进行结合,用单一芯片实现这两种功能,将会大大加速个人通信机、智能电话、无线网络产品的开发,简化设计,减小PCB体积,减小功耗,降低整个系统成本。”

FPGA与MCU两个产品的融合也并不新鲜。熟悉Altera产品线的工程师们都清楚,除了Altera自己的Nios核之外,还有ARM的Cortex M1、飞思卡尔的Coldfire。而Xilinx本身,也是在自产自销的MicroBlaze核之外,还有PowerPC核。即使是ARM公司与FPGA的合作,就能数出一堆来,从Altera到Actel,再到Xilinx。甚至英特尔也将自己的Atom处理器和Altera的Arria II GX FPGA集成在一起推出代号Stellarton的所谓可配置处理器。

Altera的软件及工具营销部的高级总监Chris Balough表示,关于FPGA和CPU的关系,整合这些器件的趋势十多年前就出现了,而且这个趋势将日趋加速。

而Xilinx亚太区及大中华区市场及应用总监张宇清则断言:融合MCU和DSP以及FPGA的SoC可称为理想的SoC。

但是,随着融合技术的广泛应用,融合平台存在的许多问题也渐渐浮出水面,张铁虎认为有以下问题有待解决:(1)功耗有待降低。DSP和MCU的融合平台拥有更高性能的同时,也会比单一的DSP或MCU产生更高的功耗。便携式设备对于功耗是非常敏感的,也就意味着首当其冲的是如何进一步降低功耗。(2)应用环境的完善与更新,即为用户提供更加简易、高效的开发和调试环境。(3)复杂程度的降低。嵌入式系统日益复杂化,因此,尽可能简化系统设计,提高开发效率,缩短开发周期,变得越来越重要。(4)成本控制。任何一个系统的发展都有着对成本控制的严格要求,如何在提高性能的同时又能有效控制成本,提高性价比,是所有开发厂商的根本利益之所在。

不可逆转的SoC集成

由于集成电路集成度不断提高,将完整计算机所有不同的功能块一次直接集成于一颗芯片上的SoC片上系统就成为整个半导体行业发展的一个趋势,也是嵌入式微处理器本身的一个发展方向。处理器集成各类功能模块和外围接口直接组成完整的计算系统可以显著降低系统成本和功耗,提高系统可靠性。这在嵌入式市场已经成为绝对的主流,因为嵌入式系统功能相对固定,对可靠性、成本、功耗要求更高。

飞思卡尔Charlie Wu认为DSC(数字信号控制器)会大量应用在新能源领域,如数字电源,太阳能发电;混合动力汽车的电池充电管理等。

NXP的金宇杰则认为:今后MCU的发展方向就是不断集成各种模拟接口以降低系统整体成本,甚至连CAN这样原来非常昂贵的接口,以后会因为集成到芯片内而可以进入工业界。

但是今年在桌面处理器市场也出现了这种趋势。比如最近AMD发布的APU就是把CPU、GPU、内存控制器等融合在一块芯片上,由于集成度增高,系统的整体功耗大幅度减少,从而得以进入上网本、一体机、HTPC甚至嵌入式市场。

专有 vs 开放

由于ARM在移动处理器市场的极端成功,它开放的IP授权模式和封闭的专有处理器模式成为整个业界讨论的一个话题。由于这几年Cortex M系列内核的成功推广,各主要MCU厂商都推出了ARM核心的MCU产品,几乎业内所有的人都认为ARM通用内核MCU将会占据市场的主导地位。的确M0核在成本、功耗方面已经非常接近8位MCU,而在代码量方面可以比原来的8051处理器降低30%~40%,可以大幅降低片上Flash的需求。再加上ARM内核的通用性,对于软件开发人员来说实在方便。

ARM授权模式比英特尔的x86处理器市场更加开放更加有活力。而且处理器IP授权厂商不止ARM一家,还有MIPS科技,这家授权厂商的开放性更高,愿意给客户提供指令集架构的授权。在DSP领域,也有类似角色,CEVA是最大的DSP内核授权商,2009年占据了78%的市场份额。

当然专有的处理器也有通用处理器无法企及的优势,爱特梅尔公司亚太区战略营销总监曹介龙解释说,通用MCU架构在不同的应用领域拥有很好的“横向”市场覆盖度,而专有MCU架构则在某些应用中拥有更好的“垂直”渗透力,例如电容式触摸屏、智能电池管理、无线传感器网络等应用。因而,对于优秀的MCU供应商来说,最重要的是能够同时支持和提供采用通用MCU架构和专有MCU架构的优良的MCU解决方案。

Microchip微控制器技术和开发部门产品市场总监Fanie Duvenhage认为专有系统的存在不单单是技术的原因,更多还是各个厂商战略的考虑,不想完全被ARM牵着鼻子走,除非市场的压力实在太大,否则各个厂商不会轻易放弃自己的专有构架。另外4位和8位MCU市场也很难被32位的ARM处理器完全取代。

因此,我们有相信与服务器市场类似的情况将再次上演,专有的处理器依靠系统厂商的支持仍旧保持一定份额,但是市场主流将是开放的架构。

X86 vs ARM

本来英特尔和ARM在各自的领域呼风唤雨,攻城略地。可是当移动互联网和云计算时代的到来,井水不犯河水的日子到头了,他们的产品策略正不断地向对方主宰的市场渗透。

根据InStat Research 的调查结果,网络连接设备的处理器市场的年均复合增长率将于2013 年达到 22.3%,2013年7亿5000万个处理器中的一半将被搭载在智能手机上。智能手机销量预期将由2008年的2亿部上升到2013年的5亿部。不仅仅是预期销量令人咂舌,尽管整个手机市场正在萎缩,但智能手机的实际销量却在大幅增长。

据 ARM 最近的描述,其收益的64%都来自于移动市场。英特尔也希望能分上一杯羹,它可不想缺席这个急速增长中的市场。巨人英特尔和ARM这个小巧灵活的大不列颠公司之间的战线正在悄然拉开。当然ARM自己不是处理器生产商,它只是整个处理器生态系统的一部分,直接跟英特尔交锋的是高通、nVIDIA等处理器厂商。

英特尔针对嵌入式市场推出的Atom处理器是一款简化了结构,去掉分支预测电路,只支持顺序执行的低功耗处理器。相比桌面处理器它的功耗已经相当小,可是相比ARM处理器,仍旧是电老虎,因为x86处理器相比纯RISC处理器总是会多出一些解码译码电路,这是维持自己代码兼容性的必然代价,也许是无法跨越的构架鸿沟。英特尔想通过自己独步天下的制造工艺来获得功耗优势,理论上可行,但实际的产品Medfield仍旧没有正式公布,所以业内人士普遍不看好它在移动市场的前景。

ARM去年9月已经公布了Cortex A15MP内核,虽然不是先前预测的64位处理器,但是支持扩展寻址能力,可以突破4GB的内存限制,还支持硬件虚拟化,显然已经可以进入桌面甚至服务器市场。再加上微软已经宣布会开发ARM版本的Windows8,它的前景反而更加被业内看好。毕竟能耗效率是整个行业越来越关心的指标,ARM处理器在这方面有着天生的优势。

由于这两家的实际产品都还没有发布,实际的性能和功耗都还是未知数。虽然业内普遍更加看好ARM所代表的整个阵营,但是英特尔毕竟是处理器的巨人,在这方面的技术积累无人可敌,说不定会有出乎大家意料的产品诞生,进而改变整个行业的力量对比。




0.30618906021118 s