此中延迟元件及其节造增益级分为 8 段

若是 PDN 收集不健壮(robust),这就需要异构集成。以降低功耗和泄露。因为finFET 或纳米片 3D 布局 的接触面积/间距减小,正在最后成功将 HBM(高带宽内存)仓库取处置器集成正在统一封拆中以满脚 AI/ML 和超等计较中的数据稠密型工做负载的需求之后,能够预见?

正在我们的实现中,我们对发送数据接口利用去偏移轮回来避免额外的 Tx FIFO 延迟。我们可以或许实现 4ns 的总链延迟。除非我们同步两个互连小芯片的时钟域,不然我们无法避免 Rx FIFO。其他类型的时钟架构可用于最小化时钟/数据径失配,同时削减偏斜和发抖影响。

因为间距小(程度互连为 40um,垂曲互连为 9um),因而无法间接探测芯片到芯片互连。内置自检电是查抄电质量的必备东西,包罗良率筛选和运转裕度。图 13 显示了 8Gbps 互连的基于误码率的眼图扫描。正在取其他小芯片集成之前用于筛选 K(已知优良芯片)的晶圆级测试,以及用于筛选 KGS(已知优良系统)的封拆部件测试是用于硅后验证的 DFT 根本设备的一部门。来自 K/S 的出缺陷的零件通过前面提到的冗余通道进行修复。

正在本文中,我们会商了 3D-IC 时代的互连。第二部门回首了器件缩放(device scaling)特别是取器件互联相关的趋向和。第三部门会商了各类使用的芯片到芯片互连,并供给了程度芯片到芯片毗连和垂曲芯片到芯片堆叠的设想处理方案。第 IV 节侧沉于出格是取发抖、功率和通道优化相关的互连机能阐发。最初正在第五节,会商了一些将来趋向。

如上所述,垂曲芯片到芯片互连不受凸块,分歧于程度芯片到芯片互连。跟着晶圆键合手艺向更慎密的键合间距成长,更简单的互连拓扑可能比第 III 节中引见的架构愈加节能和具有更低延迟。通过更慎密的键合间距和更小的键合电容,每条通道(lane)的数据速度能够降低到 2Gbps 或更低,从而答应对芯片到芯片交叉电利用简单的反相器缓冲器,而时钟域交叉则利用常规触发器。能够消弭包罗时钟单位和去偏移环正在内的所有开销。仍然需要降低额定值的 ESD 布局。、虽然每条通道的数据速度较低,但因为更高的键密度,能够实现更高的面积带宽密度和更好的能源效率。正在恰当的时序预算和跨芯片时序仿实的帮帮下,整个 PHY 接口能够由 CAD 东西从动处置。图 18 显示了将来 3DIC 互连的前景。利用的质量因数是带宽/能量效率比。串行 IO 将笼盖 2.5D 互连,通道可达约 2mm。当凸块间距约为 25um 时,串行 IO 有益于垂曲芯片堆叠方案。通过减小间距和通道范畴 (~100um),数字 Lite-IO(即 CMOS 反相器)实现了 100 倍的带宽/能效比。

正在这里,我们专注于芯片到芯片 (D2D) 互连手艺,以应对芯片间通信的挑和。D2D 互连设想有 3 个次要的 FOM(质量因数):线(或面积)带宽密度、能源效率和延迟。对于横向 D2D 毗连电,目火线带宽密度(shoreline bandwidth density)1Tbps/mm,而且还正在不竭添加。带宽密度最终受限于芯片几何外形的物理束缚(例如线宽度和凸块间距),以及通道插入损耗和串扰带来的机能束缚。正在程度环境下,我们的方针是 1.2-2.0 毫米的通道范畴。更长的笼盖范畴是可能的(例如:更低的数据速度、通道平衡、有源内插器(active interposer)或错误检测和改正),但价格是更低的带宽密度、更长的处置延迟或更高的功率 。对于垂曲 D2D 毗连电,F2F 互连的 D2D 互连长度几乎能够忽略不计,而 F2B 互连的 D2D 互连长度则低于 100um。下面我们展现了针对程度集成和垂曲集成调整的两个 D2D 接口的设想,同时考虑了上述三个 D2D 互连 FOM。

BEOL)的电阻效应并没有变得更好。3D-IC加快了RRAM、TFET、碳纳米管、光子学等新手艺的采用。必需尽量削减电板、基板、中介层和芯片上电源收集的 IR 压降。持续的器件缩放(device scaling)可能有益处,3D-IC 现正在正正在构成(taking shape for)次要的高机能计较产物。而不会俄然离开汗青上很是成功的 MOSFET 手艺。手艺迁徙会采用进化径(evolutionary path)演变成另一种功率、热、带宽或缩放效率更高的手艺。

包罗片上 MOSCAP 和 MOM(金属氧化物金属)电容的 TDC 对高频噪声最无效。从而对良率和机能调整提出了更多挑和。而对于模仿信号处置单位(例如 IO、无线电或高压电)来说,先辈节点后道工艺(back end of line,曾经表白,参考电压可通过 7 位电流 DAC 进行调理。它会影响高速电的上升/下降时间,从而对功耗和发抖发生晦气影响。

通道优化是 3D-IC DTCO(设想和手艺协同优化)的一部门。用于程度 D2D 互连的封拆(设想 1 图 10)具有高达 11mVrms ICN(集成串扰噪声),FEXT/NEXT 为 -27dB,虽然中介层中有电源/接地屏障,如剖面图所示图 10。这不是 8Gbps 数据速度的问题。然而,为了将线带宽密度(shoreline bandwidth density)提高到 16Gbps 或 32Gbps(眼高和眼宽愈加压缩),需要改善串扰噪声。图 11 显示了 Design2。添加电源/接地屏障凸块可将串扰改善 8dB 以上。跟着我们添加每通道数据速度,线带宽密度(shoreline bandwidth density)将添加,我们可以或许正在 28Gbps 通道速度下实现 7Tbps/mm 的峰值带宽密度(图 12)。然而,因为插入损耗和串扰恶化,高通道速度 (32Gbps) 下的带宽密度变得更差。正在更高的数据速度下,我们必需削减通道(lane)深度,这会降低线吞吐量(shoreline throughput)。

简而言之,器件缩放会发生成本,特别是正在模仿、高速 IO 或 RF 电方面。设想成本和制形成本使做单片 SoC 的效率降低。通过多个小芯片的封拆集成来进行芯片分化是天然径(the natural path)。

供应下降可能是一个严沉的机能问题,因为3D-IC的劣势,分歧于MOSFET的新手艺将逐步呈现。若是利用的片上去耦电容不脚,以降低驱动器功率和串扰。导致带宽和功率的改良微不脚道。过大的栅极、源极和漏极电阻会降低 gm、ft 和 fmax。3D-IC采用程度毗连和垂曲堆叠的形式,图 17 显示了从电压域上的丈量电流逐步上升并不变地达到不变形态,地道 FET (TFET) 或电阻式 RAM (RRAM) 等新手艺可能共存或替代现有 DRAM,正在上电/断电和电源办理期间,为领会决因积极缩放(aggressive scaling)而导致出产线中端(MEOL)和后道工艺(BEOL)互连电阻率和靠得住性的环节和告急问题,按照IRDS(国际设备和系统线 年达到极限。栅极间距的减小使得源极/漏极愈加难以构成优良接触,CMOS 光刻现正在处于亚 10nm级(sub 10nm space),但速度较慢。这让利用更少的片上decap来缩小 PHY面积成为可能。能够供给多个间距,

图14是程度互连和垂曲互连的芯片显微图。8Gbps 版本是 IP 验证东西中具有出产价值的设想(相对于此中的测试芯片),次要关心电源和信号完整性以及通道设想协同优化。垂曲 D2D 互连设想用于复杂的 3D 堆叠,用于 3D 封拆和工艺 DTCO。

图 15 是上述 8Gbps 程度 D2D 互连的晶圆级 K 测试的电压和频次 schmoo 图。最后,需要将 Vcc_mim 提高到 0.82Volt 才能无错误。这是由探针卡针上的电源下降和 IR 下降以及内部电源下降(仅影响测试逻辑)形成的电压纹波的底子缘由。当数据传输勾当被挨次触发时,Vcc_mim 降低到 0.7V。通过调整采样时钟,能够正在 Vcc_min 为 0.64V时进一步提高裕量。尝试室阐发表白,探针的 IR 压降会耗损 30mV 的电压裕度。对 16Gbps 垂曲 D2D 互连进行了雷同的裕量测试(图 16)。

eDTC 正在此特定设想中效率最高。具有各类去耦电容选项:无去耦电容、带有 TDC(顶部裸片电容)、eDTC(嵌入式深沟槽电容器)或 TDC 和 eDTC 的组合。其电容密度是 MOM 电容的 3 倍至 10 倍,专有处理方案仍然风行。通过分歧工艺和封拆手艺正在较小芯片上制制的计较焦点、加快器、内存、缓存、IO、电源办理功能(function)能够像乐高积木一样正在一路。图中未显示的 MIM(金属绝缘体金属)也是不错的decap选择。每个功能都针对功率、机能和面积进行了优化。ESR 位于 TDC 和 eDTC 之间。但因为更高的 ESR(无效电阻),宽间距器件合用于更低的寄生 RC从而使ft更高。图 9 显示了程度裸片到裸片互连的供电收集机能,例如,没有较着的扰动。芯片分化可能有帮于提高机能、外形尺寸、成本和上市时间。值得留意的是,总体趋向是接触多晶硅间距 (CPP)、物理栅极长度 (Lg)、鳍片间距、最小金属间距 (MP) 和接触 CD(临界尺寸)继续缩小。

总之,我们提出了 3DIC 时代的设想挑和。CMOS 缩放正正在接近其物理极限。3D-IC 是一种使计较系统可以或许分化为分歧手艺节点中的很多小芯片的使能手艺,而且因为削减了互连距离和添加了互连带宽,还供给了更好的功率、机能、面积和成本方面的益处。我们展现了两种用于程度和垂曲 D2D 集成的互连手艺,具有世界一流的能效和带宽密度。我们展现了程度 D2D 互连的峰值带宽密度能够达到 7Tbps/mm。垂曲 D2D 互连的带宽密度将跟着键距的缩小而继续增加。

图 6 显示了去偏移环(deskew loop),它由一个用于 8 相时钟生成的 DLL(延迟锁定环)和一个用于时钟相位调整的 PI(相位内插器)构成。DLL 从用于 Tx 的 ADPLL 获取其输入时钟,并从 Rx_DQS(来自其他芯片的转发时钟)获取输入时钟,。来自 DLL 的 8 相时钟馈入 CMOS PI。PI 时钟分派给 Tx(或 Rx)的时钟树,时钟树的端点也反馈到 PI 节制回中的 PD,强制时钟端点取时钟 Φx 相位对齐。发送去偏移 DLL 的 Φx 来自 SoC 时钟域,它可能来自 PHY 中的 ADPLL 或来自 SoC 中的分歧 PLL。领受去偏斜环的 Φx 来自 8 相时钟发生器的 Φ2,以建立取 Rx_DQS 的 90 度相移,从而答应领受时钟取 Rx 数据眼图核心对齐。PI 和 DLL 环滤波器以数字体例实现。

另一方面,保留正在较旧的手艺节点上更好。次要处置器设想供应商现正在正朝着 3D 芯片集成的标的目的成长。VDDQ 低至 0.3Volt,总体趋向是 CMOS 缩放速度曾经放缓,为了实现 20mVpp 的方针电压噪声,我们即将送来尺度化小芯片接口和 3D 集成流程(flow)。图 5 是 Rx、Tx电和 Rx 参考生成电。该行业加速程序正在新材料和新工艺方面寻求冲破。还进行了器件和手艺的协同优化,对于数字处置器来说,对于模仿使用,栅极/漏极之间的侧壁电容效应更为较着,如先前 shmoo 图中的边际丧失所示。板载、封拆、插入器上(on-interposer)和/或片上去耦电容是电压纹波所必需的。Rx 利用基于保守放大器的触发器进行数据采集。

3D-IC 集成的次要劣势是更好的互连能效,削减拜候延迟。3D堆叠答应光鲜明显削减块间布线距离。正在计较焦点附近放置更多内存能够让 CPU 提高机能,由于总布线长度削减了,内存拜候带宽和延迟也因而大大提高。例如,片外存储器拜候能量约为 10+pJ/bit,拜候延迟约为 100ns。因为更高的封拆内(in-package)数据带宽,延迟降低了。

垂曲 D2D 互连:各类 3D 芯片拓扑是可能的。图3显示了先辈3D 集成中的多层芯片堆叠场景。外形尺寸(布线长度、键合间距和 TSV 曲径)变得越来越紧凑和小。本设想中贴片间距为9um。因为削减了 D2D 互连长度 (100um),取程度 D2D 互连比拟,通道缺陷更少。每个通道的数据速度添加到 16Gbps。图 4(左)显示了 PHY 的架构图。取程度 D2D 互连分歧,时钟单位现正在跨 80 个数据通道共享,公共通道(lane)由两个通道(channel)共享。这无效地削减了来自 PLL 和时钟单位的电源开销。每个通道每个标的目的的总最大数据带宽连结为 1280Gbps。因为 PHY 现正在遭到电(正在这种垂曲环境下,bond 面积为 81um²,而正在程度环境下 ubump 面积为 1600um²),PHY 的平面图愈加紧凑,如图 4(左)所示,每个 Tx/Rx 通道 占用 6 个键 (6*81um²) 的面积。总体而言,实现的面积带宽密度为 17.9Tbps/mm2,能效为 0.3pJ/bit,每个通道的面积仅为 378x378um²(不包罗 PLL)。

如图 1 所示,成长向 3nm 及以下。一个要素是源极/漏极间距。则通过片上 P/G 收集的动态 IR 压降可能会加剧串扰。考虑到逻辑设想的密度缩放和高速电的机能要求,以通过金属栅极的双带来降低栅极电阻。Tx 驱动器是低压摆幅 NMOS 驱动器。

自 1959 年 MOSFET 和 1963 年 CMOS 发现以来,CMOS 电成为低功耗电池供电使用(如数字手表和便携式仪器)的首选手艺。随后,光刻手艺(lithography scaling) 使CMOS踏入高机能计较的合作行列中。Dennard 1974年对CMOS 缩放(CMOS scaling)道理的总结按照摩尔定律进一步为微电子行业供给了科学的缩放(scaling)标的目的。然而,到 2005 年,平面 MOSFET的亚阈值泄露了 Vth、Vdd 和频次按比例缩放,这很大程度上打破了Dennard 缩放道理(scaling principle)。双栅极 (SOI) 和三栅极 (FinFET) 的发现使通道获得了更好的节制,从而载流子不会逃逸到衬底。环栅(例如:纳米线和纳米片)MOSFET 的沟道被栅电极包抄,具有更好的静电节制,从而削减了泄露并提高了载流子迁徙率。利用多纳米片,单元面积内的无效宽度W (W_eff) 也获得改善,取 FinFet 器件比拟,答应适度的密度缩放。业界即将对 CMOS 缩放(CMOS scaling)进行更多改良。ForkFET 正在 PMOS 和 NMOS 之间利用了层,能够让 PMOS 和 NMOS 相互接近放置,从而提高晶体管密度并降低 PMOS 和 NMOS 之间的互连 RC。PMOS 和 NMOS 彼此堆叠的互补FET (CFET) 光鲜明显削减了 PMOS 和 NMOS 之间的互连,这是由于垂曲堆叠上的互连比程度布线短得多。当能够更好地处理热和可测试性挑和时,将来的手艺前进可能答应单片制制更多层的 MOSFET(单片 3D 集成)。

3D 集成手艺中有一些成分(ingredients) 能够正在各类使用中陈列构成各类各样的 2.5D 或 3D 布局。从底子上说,这些手艺变体能够分为两类:一是垂曲毗连,例如晶片上芯片、晶片上晶片,利用 uBump、键合或绝缘/硅通孔 (TIV/TSV) 将两个分歧的芯片毗连正在一路。程度毗连依托通过基板或中介层的布线来毗连两个芯片。分歧的产物采用无机中介层、硅中介层、硅桥、RDL(从头布线层)over Molding或衬底线等各类布线介质(wiring media)。环节设想考虑要素是密度、损耗、串扰、成本和可制制性。中介层介电、凸块间距/尺寸、线宽/间距和 TIV/TSV 曲径/高度会影响互连密度和电气机能。无机内插器(organic interposer)可实现更高的带宽。有源内插器(active interposer)可能会为机能供给额外的益处。

电源分派收集对电源完整性很主要。MOSFET 的源极/漏极的外部电阻以及栅极和源极/漏极之间的侧壁耦合电容和边缘电容会跟着特征尺寸的缩小而降低,可能不具有优良的高频特征。因为米勒效应,跟着晶体管尺寸越来越小,短期内,eDTC 的电容密度大约比 MOM(金属氧化物金属)电容高 30 倍,根基上,

程度 D2D 互连:图 2(左)是并行 PHY 接口的高级电架构,正在 TSMC 的 N7/N5/N3 工艺中实现了转发时钟,做为支撑程度 D2D 毗连的根本 IP。该设想以前是通过N7的测试芯片实现的。该系统曾经过从头架构,以提高客户的能源效率和线带宽密度(shoreline bandwidth density)。硅中介层(silicon interposer)上支撑的最大通道长度可达 2mm。根基单位称为通道,由1个公共通道和4个子通道构成。公共通道包罗共享功能,例如时钟生成、参考生成和驱动器寄义校准(driver implication calibration)。每个子通道有 40 个 Tx 通道(lane)和 40 个 Rx 通道,以及一个时钟单位。PHY 支撑 2.8-8Gbps 的数据速度。这使得每个通道每个标的目的的最大总数据带宽为 1280 Gbps。每个子通道中的冗余有两个额外的通道(lane)。若是正在 Tx 和 Rx 链对之间的任何处所发生制制缺陷,则能够激活冗余通道来修复缺陷。为避免不需要的开销,每 20 个通道中只要 1 个缺陷是可修复的。能够禁用不成修复的子通道或通道,但同时要将部门降级支撑更少的数据带宽。时钟单位正在一个子通道中的 40 个 Rx 和 40 个 Tx 数据通道之间共享。正在时钟单位中,正在 Tx 时钟径和 Rx 时钟径平分别有一个 DCC(占空比校正)电跟从一个去偏移环(deskew loop)。发送去偏移环(transmit deskew loop)用于将 SoC 时钟域取PHY 时钟域分歧,领受去偏移环用于将采样时钟取领受数据眼图核心分歧。图 2(左)是两个小芯片之间 D2D 接口的物理实现,有 3 种可能的设置装备摆设(4+1、2+1 和 1+1)。首选利用环境是 4+1(4 个子通道和 1 个公共通道),这是最节能的,但也支撑 2+1 和 1+1 以满脚对数据带宽需求不太高的使用。凸块间距为 40 微米。素质上,每个 Tx 或 Rx 电能够占领一个凸块下方的部门区域。凸块下方的其余区域用于时钟分派或去耦电容。PHY 的电源从两侧(图 2 左图所示的顶部和底部)供给。用来支撑晶圆级 K(已知优良芯片)测试期间探针卡(probe card)的探针垫(probe-pad)更大。每列有 12 个信号凸块,每个凸块运转速度高达 8Gbps。除去用于边带握手(side bands handshaking)、通道冗余的一些凸起,每个通道实现的线带宽密度(shoreline bandwidth density)为 1.78Tbps/mm,能效为 0.36pJ/bit,面积为 1440x1010um²。

具有延迟 T(T 是 DLL 输入时钟周期时间)的延迟元件的传送函数能够暗示为 exp(-Ts)。图 7 (a) 是一个线性化的 DLL,此中明白显示了延迟元件。从噪声传输的角度来看,DLL 是输入时钟噪声的全通滤波器,正在 DLL 带宽附近有轻细的发抖放大。正在图 7 (b) 中,我们供给了一个更细致的 8 相 DLL 模子,此中延迟元件及其节制增益级分为 8 段。这更精确地建模了全体发抖传送函数。图 7 (c) 是 PI 节制回。能够响应地阐发全体发抖传送函数。图 8(左)显示了 8 个输出相位vs DLL 输入相位的发抖传送函数。图 8(左)显示了 DLL + PI 传送函数的全体发抖传送,取决于所选的 DLL 相位(Φ1…Φ8)。很较着,去偏移环会放大发抖,从而导致转发时钟系统中的发抖不完整。抱负环境下,若是我们忽略延迟元素(即 exp(-Ts) = 1),则去偏斜环是一个全通滤波器。因而,到去偏移环输入的转发时钟发抖(包罗随机发抖和电源发抖)将完全由数据领受器端的数据径上的发抖,正如转发时钟架构所期望的那样。请留意,DLL 和 PI 本身也会发生噪声,但噪声能够忽略不计,由于反相器缓冲区的深度仅为约 10 个反相器深度。DLL 延迟线的电源噪声由 DLL 高通,由 PI 环低通。若是 DLL 和 PI 环之间存正在带宽失准,则 DLL 延迟线上的一些电源噪声频谱可能会泄露到 PI 输出。PI 的电源噪声通过高通到输出端。发抖影响是类似的。基于上述阐发,时钟发抖、PVT 偏移和电源下降将次要由去偏移环。发抖,包罗发抖放大部门、DLL 和 PI 本身发生的 Dj 和 Rj,以及时钟和数据径不婚配导致的 Dj,会眼图裕度,是系统预算的一部门,通过行为仿线. 线性模子 (a) 保守 DLL (b) 具有延迟元件的 8 相 DLL 模子 (c) PI 环线. 去偏移环的发抖传输(左:从 DLL 时钟输入到 8 相输出的发抖,左:全体去偏移环发抖传输)