
来源:爱游戏平台游戏 发布时间:2026-05-27 12:46:21
爱游戏平台官网入口下载:
5月25日,华为公司董事、半导体业务部总裁何庭波在中国科学院科技论文预发布平台上发表署名论文《多层电子系统的时间缩微理论(A Time Scaling Theory for Multi-Layer Electronic Systems)》。
论文解释了今日何庭波在国际电路系统研讨会ISCAS 2026上的题为“半导体新路径探索与实践”的主旨演讲中,发表的“韬(τ)定律”如何破解摩尔定律面临的物理和经济困局。
论文还披露了未来华为部分麒麟芯片、昇腾芯片的路线将引入逻辑折叠架构,CPU性能核心频率提升至3.1GHz,并进入硅片验证阶段;2027年的麒麟2027将继续采用逻辑折叠,频率提升至3.39GHz;2028年的麒麟2028预计达到3.71GHz,进入硅前验证阶段;到2029年,麒麟2029的CPU性能核心频率将突破4GHz。沿此路径,麒麟SoC在典型使用场景下的效率预计将在3至5年内提升1倍以上,AI硬件集成度预计到2035年增长100倍以上。
昇腾芯片方面,2026年的昇腾950以及随后的昇腾990将采用成熟技术的组合:Chiplet、2.5D扇出和通过微凸块及标准间距混合键合的3D堆叠。到2030年前后,昇腾990将把逻辑折叠引入AI芯片类别,从那时起3D折叠成为2035年前α的主要载体。沿此路径,到2035年其硬件集成度预计将增长100倍以上。
何庭波透露,预计到2031年,基于韬定律的高端芯片晶体管密度将达到1.4纳米制程的同等水平。
华为摘要过去六十年,摩尔定律所代表的几何缩微推动了半导体产业的持续进步。然而,这一产业共识已经难以延续:单纯依靠尺寸缩小所带来的回报趋于平缓,先进制程芯片的设计预算已超越单颗十亿美元,最先进节点上的每晶体管成本也不再下降。本文提出一种后摩尔时代的继任缩微原则——τ缩微。这一原则将“时间”本身,而非晶体管面积,作为衡量进步的核心指标,并以单一特征时间常数τ作为贯穿全栈的统一优化目标,覆盖从晶体管开关到数据中心工作负载约十二个量级的尺度。文章展示了两个量产级验证案例。
在移动SoC中,LogicFolding(逻辑折叠)通过把数字电路、模拟电路和存储电路分配到垂直堆叠的有源层中,在固定器件节点下实现了55%的晶体管密度跃升,以及41%的功耗能效提升。
在AI系统中,由内存语义的Unified Bus(统一总线)架构、近封装Hi-ONE光I/O以及边缘到表面的3D Folding(三维折叠)共同构成的系统堆栈,预计到2035年可推动硬件集成度增长超100倍。
更深层的主张在于方法论:τ缩放是自Dennard缩放以来,第一个能够为整个计算栈建立共同优化目标的缩微原则。导言自 20世纪60年代中期以来,半导体产业一直以纳米作为衡量进步的单位。大约每十八个月,晶体管尺寸缩小,频率上升,单位逻辑门的成本下降。
摩尔定律既是一种经验观察,也帮助建立了整个计算堆栈的一种产业共识。如今,这一产业共识已经失效。进入7nm节点之后,几何缩微不再提供历史上那样的红利。
光刻设备正在接近图形化的物理极限,EUV设备折旧主导了主导晶圆成本,单位晶体管价格曲线趋于平坦,在某些情况下甚至会出现反转。对那些先进光刻设备获取受限的组织而言,这一约束更早成为现实,也更加严峻。
因此,产业面临的核心问题已发生变化。问题不再是“晶体管还能缩小多少”,而是“究竟应该缩小什么,又应该要针对什么目标?”。
过去六年,作者所在的华为半导体团队在移动SoC、AI加速器、系统互连和封装等多个方向上,通过硅片实践研究了这一问题。得到的结论是,答案不在于另一个制程节点,也不在于另一种晶体管结构,而在于改变主要优化目标本身。
本文主张,未来十年电子系统的演进应由几何缩微转向时间缩微,即在整个技术栈中系统性降低单一特征时间常数τ,从皮秒级开关的晶体管,到秒级响应的数据中心工作负载来引导——而非几何缩微。
下文将结合2020年5月至2026年5月间进入量产的381款芯片所积累的经验基础,从科学方法论和产业路线图两个层面展开τ 缩放的论证。
戈登·摩尔(Gordon Moore)在1965年提出,晶体管密度大约每两年翻一番。十年后,罗伯特·登纳德(Robert Dennard)提出了缩微理论,指出电压和尺寸按比例缩小时,可以维持恒定电场。几何缩放与Dennard缩放一同推动了近五十年里每瓦性能和每美元性能的指数级提升。
这一格局分两个阶段瓦解。大约在2005年,Dennard微缩率先失效:电压无法再随特征尺寸同比例下降,“暗硅”时代由此开启。几何微缩维持得更久,先后依靠FinFET和全环栅极(GAA)等器件结构继续延展。
然而,进入7nm之后,单纯依赖尺寸微缩所获得的收益已经趋于平缓。其原因已经相当明确:速度饱和使本征延迟对沟道长度的依赖从平方关系降为线性关系;局部互连中的寄生电阻和电容越来越主导标准单元延迟预算;掩膜成本、EUV折旧以及设计规则复杂度,使2nm节点的先进芯片设计预算超过单颗十亿美元。
经济后果同样无法回避。先进节点上的单位晶体管成本已经趋于平坦,在最前沿节点上甚至开始上升。过去五十年支撑产业运转的共识——每一代都能以更低成本获得更多晶体管——已不再成立。
对于华为半导体而言,这一转变还叠加了另一项约束:获取最先进光刻设备渠道受限。继续假设“下一个节点会处理问题”已不再可行。
六年前,几何微缩路线图进入平台期,迫使团队面对一个更根本的问题。回头看,这也是整个行业迟早都必须面对的问题。
如果从最终用户所感知的本质影响来看,摩尔定律根本上从来都不只是关于几何尺寸。更小的晶体管之所以提升系统性能,是因为它们切换更快。更密集的互连之所以能提升性能,是因为信号传播距离更短。更高的集成度之所以能提升性能,是因为数据跨越的边界更少。
每一代技术所带来的本质,其实都是时间的压缩:在器件层面从皮秒到纳秒,在芯片层面从纳秒到微秒,在系统层面从微秒到秒。空间微缩只是压缩时间的工具。
认识到这一点后,一个显而易见的重构思路便出现了:应当把时间本身作为主要指标。在堆栈的每一层——晶体管、电路、芯片和系统——都可以定义一个特征时间常数τ,并将其缩减为统一优化目标。这样一来,几何微缩只是成为缩减τ的多种技术之一,不再是唯一途径。
这一原则被称为τ微缩。本文提出,应将其作为继几何摩尔微缩之后,指导半导体演化的新原则。形式上,τ被视为一个分层结构,能分解为:
其中,τ_transistor、τ_circuit、τ_chip和τ_system分别表示晶体管层、电路层、芯片层和系统层的时间常数。每一层的τ都由其下层结构和该层引入的组织和通信开销共同构成。τ的工作空间在时间上大约横跨十二个数量级,从皮秒到秒;在空间上也覆盖从纳米到千米的相似尺度。
核心是本征开关延迟,可通过迁移率提升、应变工程、高κ/金属栅、GAA架构等方式改善。与此同时,局部互连的寄生电阻和电容正在慢慢的变重要,还要进一步降低局部互连的寄生R和C。如今,这些寄生参数所造成的延迟已达到本征渡越时间的数倍。
核心是信号路径上的RC传播延迟,可通过低电阻率导体、低κ介质,以及更重要的垂直集成来缩短线长。
核心是计算延迟和存储访问延迟,可通过架构选择、流水线深度、存储层级结构和片上互连网络进行优化。
核心是端到端消息传输和同步时间,可通过互连拓扑、协议栈和网络结构设计来降低。从这一分层表述中,能够获得一个有用的代际规则:
其中微缩因子α并非通用常数,而与应用场景相关。迄今为止的量产经验显示,在功耗受限的移动电子设备中,α约为每年1.3倍;在安全关键型无人驾驶系统中,α约为每年1.5倍;在AI工作负载中,α最高可达每年10倍,因为吞吐量会直接转化为经济价值。
τ之所以可成为一个有效的核心指标,而不是对既有指标的重新命名,是因为它在整个堆栈中具有一致性。频率、延迟、带宽和吞吐量在各自层级上都受τ支配。工艺技术人员、电路设计人员和系统架构师可以围绕同一个量、用相同单位展开讨论。
τ是实现端到端全栈协同优化的共同语言。过去那种各层独立优化、时序作为残差的时代已经结束。
τ微缩的第一个量产规模验证是在移动领域完成的。智能手机SoC是一种特殊案例:一颗芯片几乎构成了总系统。它无法依靠多插槽并行来弥补性能短板,也无法用千节点互联架构来掩盖慢速链路。用户最终感知到的全部性能,都来自单颗芯片,同时还受几瓦功耗包络和手持设备热设计约束。
2020年以后,先进节点获取受限,实际问题变成了:在节点固定的情况下,如何继续在单颗芯片上实现代际性能改进?
逻辑折叠是一种设计方法。它按照时间尺度微缩原则,将数字电路、模拟电路和存储电路划分到垂直堆叠的有源层中,以联合优化性能、功耗和面积。数字电路可分为组合逻辑和时序逻辑。组合逻辑是寄存器之间的布尔网络,时序逻辑则是保持状态的触发器。数字系统的性能上限由相邻触发器阶段之间的关键路径延迟决定,而关键路径延迟又主要受到路径上的互连RC和门级数量影响。
传统优化把门电路放置在二维平面中,并通过其上方的金属层布线。线越长,寄生RC越大,关键路径越慢。
逻辑折叠放弃了平面假设。关键路径上的门电路被分布到两个,未来甚至更多个垂直堆叠的有源层中,并通过超细间距混合键合连接。
从电路设计者的视角看,这两个层表现为一个连续的布局基底,单元可以跨越晶圆边界分布,就像晶圆边界成为额外的一层金属层。信号布线显著缩短,寄生RC一下子就下降,时钟偏斜收紧,同一器件节点下芯片可以更高的时钟频率运行。
为了让逻辑折叠发挥这些收益,需要使混合键合间距与顶层金属间距之间的齿轮比保持较低。实践中这一比例大致需要低于3,越低越好。
以当前约720nm的顶层金属间距为例,这在某种程度上预示着混合键合间距需要低于2μm,理想状态下齿轮比接近1,此时键合界面处的鸟笼式布线开销基本消失。
要达到这一间距,同时满足覆盖精度低于0.5μm、TSV缩微(CD和KOZ低于1.5μm、TSV间距低于6μm),以及通过智能冗余实现接近100%良率,需要供应商与合作伙伴生态经历多年工艺开发。
·晶体管密度在一代内从155MTr/mm²阶跃式提升至238MTr/mm²。该密度按公式
计算,麒麟SoC设计的面积利用率为68%。这一提升幅度在过去常常要三年的几何微缩才能实现。
· 一个跨越上下两层构建的高速全局NoC数据通路,使数据路径占用面积降低55%,同时提升了供电稳定性。
· 在SRAM上,由于访问加载速度、每比特能耗和面积强烈依赖位线和字线长度,逻辑折叠缩短了关键路径,降低了每比特能耗,并使工作频率提升超过40%。
· 在一个代表性处理核心上,双层折叠架构使时钟缓冲器数量减少超过50%,时钟偏斜降低25%,线%。
这些收益是在固定器件节点上实现的,来源并非新的光刻步骤,而是逻辑在三维空间中的拓扑重组。
麒麟2026中搭载的逻辑折叠实现有意保持保守策略。混合键合间距达到1.5μm;TSV着陆仅比顶层金属向下推进一步;折叠也只是选择性应用于关键路径,而非整个设计。即便如此,今年CPU性能核心频率已经回到3.1GHz。
未来十年,逻辑折叠预计将从局部关键路径折叠发展为全规模、多层折叠,即每个封装内包含三层、四层甚至更多有源层。这一演进将受到更低温度混合键合,以及TSV着陆从顶层金属下移至M6的支持。后者能释放超过30% 的高层布线年期间,晶体管密度预计将提升至400MTr/mm²及以上。
与此同时,逻辑折叠使 麒麟能够明显提高CPU核心频率,并朝4GHz及更高目标推进。该路线图在技术上可行,在成本上也具备经济合理性。
· 混合键合间距:低于2μm;Kirin2026为1.5μm;目标齿轮比约为1。
· 代表性核心上的时钟缓冲器数量 / 时钟偏斜 / 线. 从皮秒到微秒:AI数据中心中的τ缩微
答案是肯定的,前提是将τ作为系统级目标,并把它应用于整条链路,而不是局限在单个加速器内部。
传统的多节点、多加速器架构需要让数据穿过多层叠加协议: PCIe连接主机,机箱内部的NVLink或专有互连,机箱之间的Ethernet或InfiniBand,以及其上的软件栈远程内存访问。每一层都会带来协议转换、额外序列化、额外DMA缓冲和进一步握手。每一次转换都会增加延迟,降低可靠性,并带来额外成本。
Unified Bus,简称UB,用单一协议取代这一堆栈。该协议可在机箱内部和机箱之间运行,是一种完全点对点的互连结构,能够在总系统内原生暴露内存语义。数据移动被简化为内存语义层上的无转换点对点传输,并用硬件管理一致性取代软件栈消息传递。
当通信延迟被降低后,新的瓶颈会发生转移。提高单个机架内芯片密度会把功率密度和可靠性推至极限,也会把电气SerDes推至极限。在每颗AI芯片400Gb/s的速率下,铜缆仍然是成熟可靠的方案。但进入每颗芯片多Tb/s级别后,铜缆在物理上变得不切实际:SerDes传输距离缩短,线缆变得过于笨重,面板安装难以实现,散热与供电裕量也会被耗尽。
华为半导体开发的方案是 高密度光互连节点引擎Hi-ONE(High-density Optical-interconnect-Node Engine),一种近封装光引擎,每个模块可提供8Tb/s带宽,使单条光链路就能够匹配一颗AI芯片的UB带宽。它将所需SerDes传输距离从约100cm缩短至约5cm,消除了笨重线缆,并将传输距离从不足1米扩展至100米,使分布式、吉瓦级数据中心的高密度互连在物理上成为可能。
协议层与物理层之间的这种跨层取舍,降低了功耗、成本和集成复杂度,也体现了以τ为优先目标的方法论所鼓励的跨层权衡。4.3N²与N的困境,以及3D Folding的必然性AI加速器不会停留在2.5D扇出封装的最深层原因是几何性的。这一点值得明确说明,因为它决定了2030年之后的路线D AI芯片中,逻辑裸片位于封装中心,HBM堆栈和SerDes排布在边缘,电压调节器围绕封装布置。每一条内存信号、每一条互连信号以及每一安培供电电流,都必须穿过裸片边缘才能到达内部计算资源。若裸片边长为N,则:
3D折叠通过把原本受边缘限制的资源迁移到表面来解决这一困境。供电通过背面供电和集成电压调节器实现,高速内存通过混合键合连接逻辑,光I/O通过近封装Hi-ONE实现,它们全都从周长迁移到垂直表面。一旦资源位于表面上,就可以按N²缩微,从而匹配计算能力的平方增长。封装不再是一个由内存和SerDes周边带环绕的逻辑裸片,而变成一个垂直集成的堆栈,内存、互连、供电和逻辑共同微缩。
该路线图给出了明确时间线年之前,AI加速器,即Ascend SuperPoD系列,包括2025年的Ascend910C、2026年的Ascend950,以及后续Ascend990,将依赖成熟技术组合:chiplet、2.5D扇出,以及基于微凸点和标准间距混合键合的3D堆叠。大约在2030年,Ascend990将把逻辑折叠引入AI加速器类别。此后,3D折叠将成为2035年之前承载 α 增长的主要机制。沿着这一路径,到2035年,硬件集成度预计会增长超过100倍,τ的降低将分布在技术栈的每一层,而不再集中在器件层。
AI时代正在逆转这种解耦。计算密度的持续扩张正在把储存带宽、延迟、功耗和封装推向极限。HBM、混合键合和3D堆叠SRAM都是同一底层事实的表现:对于现代AI工作负载而言,数据移动与计算本身同样关键,逻辑和存储正在重新被推向紧密的物理集成。随着二者融合,供应链中的影响力平衡也正在转向存储和封装厂商。
工具链与方法论:今天的EDA诞生于一个将面积、时序和功耗作为三个独立轴来优化的时代,系统τ仅作为残差。
这一阈值已经在移动关键路径和存储上被跨越。不同工作负载下阈值并不相同,随着键合间距缩小,这一边界还会移动。
τ是时间定律,而非焦耳定律。一个运行速度快10倍但功耗高10倍的超级节点,并没有违反缩微原理,却可能超出电网承载能力。
2020年5月至2026年5月期间,华为半导体设计并量产了381颗芯片,服务于移动、AI、汽车、工业和基础设施市场。在整个产品组合中,τ缩微论点经受住了考验:
·在芯片层,LogicFolding在前沿移动SoC上已经证明,关键路径频率、功耗效率和密度可以在固定的器件节点上持续提升。
对于在成长过程中将“摩尔定律”等同于“进步”的一代工程师而言,这是一个困难的转变。几何时代事实上已结束;否认这一事实不是可行的策略。通过缩微实现加速的时代正在让位于通过多层电子系统的τ优化实现加速的时代——而在未来六到十年中以τ为首要目标的公司、研究团体和ECO,将决定此后十年计算的面貌。

版权所有 © Copyright 爱游戏平台官网入口 - 游戏充值与APP客户端下载 京ICP备14037209号-2 京公网安备京ICP备14037209号-2 友情推荐: 爱游戏平台游戏 | 爱游戏平台充值 | 爱游戏平台官网入口下载