通信行业AI深度洞察系列报告（三）：Scale up与Scaleout组网变化趋势如何看？-240823.pdf

定制报告-个性化定制-按需专项定制研究报告

行业报告、薪酬报告

联系：400-6363-638

《通信行业AI深度洞察系列报告（三）：Scale up与Scaleout组网变化趋势如何看？-240823.pdf》由会员分享，可在线阅读，更多相关《通信行业AI深度洞察系列报告（三）：Scale up与Scaleout组网变化趋势如何看？-240823.pdf（24页珍藏版）》请在本站上搜索。 1、请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明证证券券研研究究报报告告通通信信推推荐荐(维维持持）重重点点公公司司重点公司评级中际旭创增持新易盛增持天孚通信增持中瓷电子增持鼎通科技增持来源：兴业证券经济与金融研究院相相关关报报告告【兴证通信】周观点：美股AI 反弹下的光模块机会 2024-08-20【兴证通信】周观点：中国移动发布财报，运营商配置价值不变2024-08-11【兴证通信】周观点：北美大厂资本开支总结2024-08-04emailAuthor分分析析师师：章章林林S0190520070002代代小小笛笛S0190521090001仇仇新2、新宇宇S0190523070005朱朱锟锟旭旭S0190524040001许许梓梓豪豪S0190524070002assAuthor研研究究助助理理：王灵境投投资资要要点点summary本篇报告是 AI 洞察系列深度第三篇，研究视角聚焦在组网结构，更多从集群组网变化来分析硬件架构的技术演进趋势以及对算力产业链投资机会影响。AI 组组网网走走向向更更大大规规模模集集群群，单单节节点点和和节节点点间间网网络络性性能能要要求求持持续续提提升升。AI 网络由服务器交换机光/铜连接硬件构成，Scaling Laws 驱动算力集群规模快速增长，为迎合更大 AI 集群变化，在在单单网网络络节节点点追追求求带3、带宽宽提提升升，即即 Scale up；在网络整整体体规规模模上上追追求求更更大大承承载载力力，即即 Scale out，成成为为确确定定性性趋趋势势。Scale up：满满足足分分布布式式训训练练通通信信要要求求，提提升升节节点点带带宽宽，带带动动节节点点内内部部互互联联需需求求提提升升。大模型训练主要采用分布式训练架构，对应张量并行、流水线并行及数据并行的混合并行策略，其中张量并行对通信的要求最高，常常发生在服务器（超节点）内部，做大超节点规模，内部互联带宽提升优优先先级级更更高高，升升级级压压力力更更大大。英英伟伟达达目目前前通通过过 GB200 形形态态+NVLINK 协协议议进进行行4、超超节节点点规规模模迭迭代代并并采采用用铜铜互互连连方方案案，推推动动铜铜互互联联新新市市场场需需求求爆爆发发。短短期期铜铜有有望望主主导导 Scale up互互连连，长长期期来来看看伴伴随随带带宽宽升升级级，铜铜互互连连传传输输距距离离限限制制或或推推动动光光互互联联方方案案替替代代。Scale out：做大 AI 集群规模，除了单节点带宽提升，节点之间的互联要求也将提升，AI 集群组网规模已正式步入 10 万卡阶段，集群规模提升带来的带宽提升将推动交换机、光模块迭代，缩短产品周期并巩固行业竞争格局。1）交交换换机机环环节节：单单卡卡容容量量升升级级，模模块块化化设设计计增增加加交交换换机机5、端端口口数数，快快速速提提升升网网络络承承载载能能力力。单交换机芯片容量升级加快（当前主流方案为 51.2T，博通预计下一代 102.4T 容量交换芯片有望在 2025 年发布），为满足更快速的带宽提升要求，交换机厂商开始布局模模块块化化方方案案，通过提高交换机端口数来快速满足组网需要，有望提升交换机的价值量。2）光光模模块块环环节节：总总需需求求高高增增长长，硅硅光光有有望望加加速速。总需求增长仍跟 AI 算力增长成正比关系，产品快速迭代巩固当前竞争格局；在技术迭代上，硅硅光光有有望望在在国国内内光光模模块块龙龙头头推推动动下下，大大幅幅提提升升 1.6T 阶阶段段渗渗透透率率，并有望逐步推6、动 CPO形态产品的量产。投投资资建建议议：Scaling Laws 驱动 AI 算力集群规模快速提升，超节点内部带宽升级优先级更高，机柜内部硬件核心受益，节点间互联带宽亦快速增长，交换机模块化，光模块硅光渗透率提升趋势确定。光光模模块块、铜铜互互连连、以以太太网网交交换换机机核核心心受受益益。重重点点推推荐荐：新易盛、中际旭创、天孚通信、鼎通科技等；建建议议关关注注：光迅科技、华工科技、盛科通信、紫光股份、锐捷网络、源杰科技等。风风险险提提示示：以太网交换机在 AI 市场进展不及预期，AI 应用进度不及预期，竞争加剧。titleA AI I 深深度度洞洞察察系系列列报报告告(三三)：S Sc7、 ca al le e u up p 与与 S Sc ca al le e o ou ut t 组组网网变变化化趋趋势势如如何何看看？createTime12024 年年 08 月月 23 日日请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-2-行行业业深深度度研研究究报报告告目目录录1、Scale up：带宽升级压力更大，铜连接等核心受益.-4-1.1、超节点内部：Scale Up 带动带宽持续提升.-4-1.2、超节点规模：由 GPU 或者云厂商设计决定.-7-1.3、带宽提升驱动内部互联密度提升.-9-2、Scale out：集群规模升级，以太网和硅光化加8、速.-11-2.1、AI 集群规模走向 10 万卡阶段.-11-2.2、以太网组网落地加速.-12-2.3、博通和英伟达方案提供互联技术基础.-14-2.4、交换机模块化，推动 Scale out 规模提升.-17-2.5、光模块：总需求保持向上，硅光是趋势.-19-3、投资逻辑及标的推荐.-22-4、风险提示.-23-图图目目录录图 1、英伟达 H100 示意图（内部）.-4-图 2、AI 大模型依赖分布式并行训练架构.-5-图 3、分布式训练中的并行策略.-6-图 4、大模型混合并行举例.-6-图 5、英伟达 GH200 超节点互联.-7-图 6、谷歌跨 pod 的 Multislice 9、技术.-8-图 7、超节点规模扩大可以降低 DCN 带宽.-8-图 8、UALink 推动集群实现 scale up.-9-图 9、英伟达 NVL72 采用铜互连形式.-10-图 10、英伟达 NVLINK 协议支持带宽不断提升.-10-图 11、模型规模越大，大模型性能越好.-12-图 12、AI 集群规模不断扩大.-12-图 13、基于博通方案搭建的以太网集群.-13-图 14、Meta 的 32K GPU 训练集群.-14-图 15、博通以太网交换芯片不断升级.-15-图 16、博通此前 AI 相关收入指引.-16-图 17、英伟达拆分网络部分收入.-16-图 18、英伟达以太网交换机迭10、代规划.-17-图 19、Arista 针对 AI 集群的交换机方案.-17-图 20、Arista 三个交换机系列.-18-图 21、Fat tree 拓扑结构下互联规模.-19-图 22、AI 军备竞赛下全球算力增长显著.-19-图 23、中国 AI 投入加速增长.-19-图 24、硅光有望带动光模块更大规模量产.-20-图 25、硅光技术迭代路线.-21-图 26、2022-2028 硅光子 PIC 市场规模及预测.-21-aV9WaYcW9WfYbZbZ6MbPaQnPqQmOsOkPnNxPlOnPsM6MpOnNMYoOpQMYpOnP请请务务必必阅阅读读正正文文之之后后的的信信息11、息披披露露和和重重要要声声明明-3-行行业业深深度度研研究究报报告告表表目目录录表 1、OIF 对于铜连接标准（距离不断缩短）.-11-表 2、交换机及光模块产业链受益标的.-22-请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-4-行行业业深深度度研研究究报报告告报报告告正正文文1、Scale up：带带宽宽升升级级压压力力更更大大，铜铜连连接接等等核核心心受受益益1 1.1 1、超超节节点点内内部部：S Sc ca al le e U Up p 带带动动带带宽宽持持续续提提升升超超节节点点指指的的是是多多个个 GPU 互互联联的的节节点点，例例如如英英伟伟达达12、的的 DGX POD。在云计算阶段，服务器主要为 CPU 服务器，每台服务器配置 1-2 颗 CPU 芯片，单服务器配置几乎没有发生过变化。AI 时代，AI 大模型的训练需要更大规模的并行计算，单颗GPU 无法满足模型训练或者推理需求，因此不仅单服务器内部部署 GPU 数量提升至 4 颗、8 颗甚至更多，并通过 Scale Up 的方式实现更多 GPU 互联，最终对这样一个靠 Scale Up 方式互联的形态定义为一个超节点。以英伟达为例，超节点定义为 DGX Pod，A 和 H 普通系列每台服务器内部配有 8颗 GPU 芯片，到 B 系列，该节点下单台服务 GPU 规模从 8 颗升至最多 713、2 颗，Scale Up 互联的极限则升至 576 颗 GPU。图图 1、英英伟伟达达 H100 示示意意图图（内内部部）资料来源：英伟达，兴业证券经济与金融研究院整理AI 训训练练模模型型特特质质决决定定 Scale UP 内内部部带带宽宽要要求求更更高高。随着 AI 模型规模不断增加，在训练角度上，单 GPU 显存很难满足模型需求，同时随着训练量提升，本身对于GPU 的总数需求也需要快速提升，因此大大规规模模分分布布式式并并行行训训练练成成为为更更好好的的选选择择。请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-5-行行业业深深度度研研究究报报告告分分布布式式14、训训练练常常见见有有三三种种策策略略，分分别别是是数数据据并并行行（Data Parallelism，DP）、流流水水线线并并行行（Pipeline Parallelism，PP）和和张张量量并并行行（Tensor Parallelism，TP），大大模模型型训训练练时时，会会混混合合采采用用三三种种并并行行策策略略。1）数数据据并并行行：每个 GPU拥有同样的模型副本，数据集拆分成多份给到不同的 GPU进行训练，每一次迭代训练完成，各个 GPU 需要把计算得到的梯度进行全局同步，并计算出下一轮迭代需要用到的参数。数据并行中，网络上需要对各个 GPU 的梯度做一次 AllReduce（AllR15、educe 是一种特殊的通信协议，要将所有节点上的数据进行规约操作，并将结果返回到根节点，通过 AllReduce 算法，可以实现节点间的数据同步，从而加速模型的收敛速度）。2）流流水水线线并并行行：将模型按照神经元的层次进行拆分，不同层放在不同的 GPU 上，这种并行不需要不同 GPU 之间做层间点到点数据传递，只是传输正向计算的激活值和反向计算的梯度值，这种通信量较小，对网络性能要求较低。3）张张量量并并行行：联合多个 GPU 同时做张量计算，这种策略需要多个 GPU 对局部的张量计算结果做全局的 AllReduce 同步。张量并行通常计算规模较大且在一次迭代里会发生多次 AllReduc16、e，因此张量计算对网络带宽需求最大。图图 2、AI 大大模模型型依依赖赖分分布布式式并并行行训训练练架架构构资料来源：百度智能云，兴业证券经济与金融研究院整理请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-6-行行业业深深度度研研究究报报告告实际训练过程，机柜内部进行张量并行，如果采用英伟达 GPU 方案，利用 NVLINK带宽，机柜间进行流水线并行，同时为了加速模型训练，加入数据并行，一般来说一个数据并行单元成为一个 DP 组，每个 DP 组内张量并行和流水线并行共存。以百度智能云提供的案例为例，如果存在 8 路张量并行，4 路流水线并行，以及 3路数据并行，17、则每次迭代，张量并行需要 100GB 级别的 AllReduce，流水线并行需要 100MB 级别的点到点传输，数据并行需要 10GB 级别 AllReduce。因因此此对对于于带带宽宽的的需需求求更更多多停停留留在在服服务务器器内内部部，服服务务器器之之外外的的带带宽宽需需求求相相对对较较低低。随随着着模模型型的的规规模模不不断断增增加加，对对于于服服务务器器内内带带宽宽的的需需求求会会呈呈现现快快速速提提升升，为为了了适适应应更更大大的的模模型型训训练练，建建立立更更大大带带宽宽的的超超节节点点成成为为趋趋势势。图图 3、分分布布式式训训练练中中的的并并行行策策略略资料来源：OpenAI，18、兴业证券经济与金融研究院整理图图 4、大大模模型型混混合合并并行行举举例例资料来源：百度智能云，兴业证券经济与金融研究院整理请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-7-行行业业深深度度研研究究报报告告1 1.2 2、超超节节点点规规模模：由由 G GP PU U 或或者者云云厂厂商商设设计计决决定定（一一）英英伟伟达达：超超节节点点规规模模从从 GH200 的的 256 升升级级至至 576 张张卡卡2024 年 3 月英伟达发布了发布新一代 AI 超级计算机搭载 NVIDIA GB200Grace Blackwell 超级芯片的 NVIDIA DGX19、 SuperPOD。和之前的 8 卡方案不同，每个 DGX GB200 系统共包含 36 个 CPU 和 72 个 GPU。如果完全采用 NVLINK 互联生成超级点，在 GH200 阶段，互联的上限是 256 张卡，到 GB200 部分，可升级到 576 张卡。内部互联的带宽部分，单卡拥有 18 个NVLink 100 GB/s 连接,总带宽可达 1.8TB/s，相较于 H 系列，带宽翻倍，若采用NVL72 版本，互联总带宽可达到 130TB/s。（二二）谷谷歌歌：超超结结点点规规模模为为 8096 张张卡卡2023 年 1 月谷歌发表了文章How to scale AI training 20、to up to tens of thousands ofCloud TPU chips with Multislice，此前大模型训练如果采用谷歌 TPU 的方案，只能局限在单个切片中，该报告提出 Multislice 技术，可通过芯片间互联及多个TPU pod 互联，使得将训练集群工作扩展到万颗芯片以上互联规模。图图 5、英英伟伟达达 GH200 超超节节点点互互联联资料来源：英伟达，兴业证券经济与金融研究院整理请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-8-行行业业深深度度研研究究报报告告在该文中谷歌提出观点为：通通过过做做大大超超节节点点 Pod 的21、的规规模模，可可降降低低对对于于 DCN 互互联联带带宽宽的的要要求求。具体表现为：如果我们增加 pod 内部算力卡个数，对于 pod 之间 DCN 带宽就可以降低，同样可以达到理想的训练效果，并不会受制于通信带宽迭代的限制。（本质原因在于如果将 TP 留在超节点内部完成，PP 和 DP 本身对通信要求较低，通过机柜外互联带宽完成，对应 DCN 带宽要求也可以降低）关关于于 Pod 规规模模：TPUv4p 为为 4096 颗颗,，TPUv5p 为为 8960 颗颗。图图 7、超超节节点点规规模模扩扩大大可可以以降降低低 DCN 带带宽宽资料来源：谷歌How to scale AI traini22、ng to up to tens of thousands of Cloud TPU chips with Multislice，兴业证券经济与金融研究院整理（三三）UALink：1.0 阶阶段段超超节节点点规规模模为为 10242024 年 5 月 AMD、英特尔、谷歌、微软、博通、思科、Meta 和惠普企业等八家科技巨头联合组建了 UALink 联盟，旨在推出一项新的技术标准UltraAccelerator Link（UALink），对标英伟达的 NVLINK。UALink 联盟预计会在 2024 年第三季度成立，并提供 UALink 1.0 规范给加入到联图图 6、谷谷歌歌跨跨 pod 23、的的 Multislice 技技术术资料来源：谷歌How to scaleAI training to up to tens of thousands of Cloud TPU chips with Multislice，兴业证券经济与金融研究院整理请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-9-行行业业深深度度研研究究报报告告盟内的公司。UALink 1.0 规规范范支支持持连连接接多多达达 1024 个个 AI 芯芯片片，并允许在一个计算集群（Pod）内，让接入的 GPU 等加速器附带的内存之间实现直接加载和存储。图图 8、UALink 推推动动集集群群24、实实现现 scale up资料来源：UAL，超能网，兴业证券经济与金融研究院整理1 1.3 3、带带宽宽提提升升驱驱动动内内部部互互联联密密度度提提升升结结合合上上述述分分析析，Scale up 后后续续升升级级的的趋趋势势为为做做大大超超节节点点规规模模，其中谷歌采用 TPU为定制化方案，当前市场仍是使用英伟达方案为为主流。英英伟伟达达的的方方案案是是通通过过NVL GB200 方方案案设设计计，叠叠加加使使用用 NVLINK 协协议议，明明显显提提升升机机柜柜内内部部互互联联带带宽宽提提升升，并并采采用用铜铜互互联联方方式式，打打开开铜铜互互连连市市场场需需求求。英伟达基于 GB200 的25、 NVL72 架构为：单机柜互联 72 颗 72GPU，其中18 个计算托盘，每个托盘内部 2 个 GB200，单个 GB200 拥有 2 颗 GPU9 个交换托盘，每个托盘内部 2 个 NVSWITCH 交换芯片采用 NVLINK 协议完成 72 颗 GPU 互联，NVLINK 协议带宽升级到 5.0，交换带宽为 14.4TB/s，采采用用合合计计约约 5000 根根铜铜缆缆连连接接。请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-10-行行业业深深度度研研究究报报告告图图 9、英英伟伟达达 NVL72 采采用用铜铜互互连连形形式式资料来源：英伟达，兴业证券经济26、与金融研究院整理展展望望：英英伟伟达达公公布布下下一一代代 Rubin 系系列列规规划划，NVLINK 带带宽宽持持续续升升级级，推推动动铜铜互互连连带带宽宽升升级级。目前英伟达公布将在 2026 年推出第一代 Rubin 产品，2027 年将推出Rubin Ultra。Rubin 平台将搭载新新一一代代 NVLink 6 Switch，提提供供高高达达 3600GB/s 的的连连接接速速度度，以以及及高高达达 1600 GB/s 的的 CX9 SuperNIC 组组件件，确保数据传输的高效性。如果在 Rubin 系列，英伟达继续采用类似机柜方案设计扩大节点内带宽，NVLINK6.0 支持柜内27、带宽翻倍提升，有望铜互带宽和互联密度提升。图图 10、英英伟伟达达 NVLINK 协协议议支支持持带带宽宽不不断断提提升升资料来源：英伟达，兴业证券经济与金融研究院整理长长期期视视角角：长长期期来来看看伴伴随随带带宽宽升升级级，铜铜互互联联传传输输距距离离限限制制或或推推动动光光互互联联方方案案替替代代。铜缆在传输电信号过程中存在信号衰减问题，且传输距离越远损耗越大，因此铜缆能实现稳定传输的距离较短。此外随着网络带宽升级，铜缆传输的单链路信号速率也从 56Gbps 升级到 112Gbps，并继续向 224Gbps 方向升级，而信号速率的升请请务务必必阅阅读读正正文文之之后后的的信信息息披披露28、露和和重重要要声声明明-11-行行业业深深度度研研究究报报告告级将直接导致链路损耗加速增加，从而进一步缩短铜缆连接距离。基于现实的物理限制条件，IEEE 制制定定 112G 规规范范的的 802.3CK 小小组组在在 56G 速速率率最最长长 3 米米的的铜铜缆缆IO 基基础础上上，将将铜铜缆缆链链路路的的最最大大长长度度缩缩减减为为 2 米米。如果不做任何更改，2 米的距离可能不足以将未来架顶式（TOR）交换机与机柜内部较低位置服务器连接起来。因此在当下 112G 甚至 224G 信号速率阶段，通过更改交换机位置，紧凑服务器结构设计减少对于铜缆距离的要求，同时设计上将铜缆从无源铜缆 DAC 29、向有源铜缆（AEC、ACC）变化增加铜缆互联距离适应当下需求。但但考考虑虑到到本本身身铜铜缆缆的的物物理理限限制制，以以及及后后续续带带宽宽持持续续升升级级的的背背景景下下，铜铜缆缆做做优优化化的的难难度度会会持持续续增增加加，在在此此背背景景下下，光光互互联联（高高带带宽宽高高速速率率长长传传输输距距离离优优势势）有有望望替替代代铜铜互互联联方方案案。表表 1、OIF 对对于于铜铜连连接接标标准准（距距离离不不断断缩缩短短）OIF CEI projectsCEI-25G-LRCEI-56G-LRCEI-112G-LRCEI-224G-LRTimline2011-20142014-20182030、18-20222022-2024Ethernet rate100G50/100/200G100/200/400G200/400/800/1600GSwitch capacity3.2T12.5T25T/50T50T/100TPer-lane data rate25Gbps56Gbps112Gbps224GbpsModulationNRZPAM4PAM4TBDReach objective5m copper cable3m copper cable2m copper cable1m copper cableSerDes architectureAnalogAnalog/DSPAnalog/DSP31、TBD资料来源：OIF，SemiWiki,兴业证券经济与金融研究院整理2、Scale out：集集群群规规模模升升级级，以以太太网网和和硅硅光光化化加加速速2 2.1 1、A AI I 集集群群规规模模走走向向 1 10 0 万万卡卡阶阶段段Scaling Laws 法法则则驱驱动动大大模模型型硬硬件件部部署署走走向向更更大大集集群群。Scaling Laws（缩放法则）：主要用于探索在大模型训练过程中，模型参数量、数据集和计算量之间规律，最早由 OpenAI 在 2020 年提出。Scaling Laws 的出现为当下 AI 大模型的训练提供了重要指导。对于基于 transformer 的大32、模型而言，在训练过程中存在以下重要结论ScalingLaws：1）模型规模要大：即增加模型参数量、数据集和计算量，就可以得到性能更优的模型效果。2）模型参数量、数据集以及计算量之间存在幂律关系，可以通过建模拟合参数，在较小的模型投入情况下，对实际要训练的模型效果提前预测，达到指导作用。3）随着模型规模增加，模型会出现涌现特质未预期到的新能力，推动模型性能提升。请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-12-行行业业深深度度研研究究报报告告图图 11、模模型型规规模模越越大大，大大模模型型性性能能越越好好资料来源：Scaling Laws for Neural33、 Language Models，兴业证券经济与金融研究院整理实实际际技技术术落落地地：AI 网网络络互互联联规规模模持持续续扩扩大大，带带动动互互联联规规模模提提升升。早期 AI 训练网络互联规模均在千卡左右体量，后随着 AI 大语言模型的参数、训练量指数级提升，对于算力卡互联规模的也得到持续提升。从千卡到万卡，目前行业已经正在部署的 10 万卡集群。目目前前马马斯斯克克旗旗下下 xAI 平平台台正正在在部部署署基基于于英英伟伟达达 H100 的的 10 万万卡卡 AI 大大集集群群，再再次次刷刷新新当当前前 AI 集集群群规规模模。该该 10 万万卡卡在在服服务务器器层层面面由由 Dell34、和和 Supermicro 提提供供。图图 12、AI 集集群群规规模模不不断断扩扩大大资料来源：Marvell，兴业证券经济与金融研究院整理2 2.2 2、以以太太网网组组网网落落地地加加速速此此前前大大部部分分 AI 集集群群组组网网均均采采用用 IB 协协议议，在在以以太太网网技技术术的的推推动动下下，基基于于以以太太网网的的AI 集集群群方方案案有有望望进进入入加加速速落落地地阶阶段段。目前采用以太网组网的云厂商不断增加，如亚马逊、甲骨文、Meta 以及字节跳动，且已经落地的 AI 集群规模上均超过 1 万请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明35、-13-行行业业深深度度研研究究报报告告张卡。在 GPU 配套组网方案上，英伟达在 2024 年 5 月的财报电话会上也在强调要推动以太网组网方案的快速落地。（一一）字字节节：Megascale 实实现现万万卡卡互互联联2024 年 3 月字节跳动联合清华大学发表论文MegaScale:Scaling Large LanguageModel Training to More Than 10,000 GPUs，该论文阐述了如何将大语言模型训练扩展到 1 万卡互联的系统。针对大模型训练的效率，通常采用模模型型浮浮点点运运算算利利用用率率（MFU）指指标标进行衡量。在进行大模型训练时，通信的处理、数36、据预处理以及 GPU 内存消耗等方面均对 MFU 会产生影响。在数据中心网络部分，字节采用了博博通通 Tomahawk 4 芯芯片片构构建建交交换换机机，每颗芯片交换容量为 25.6Tbps，对应 64*400G 端口。在组网拓扑结构上，采用无收敛三层CLOS 架构，每层交换机实现 1：1 下行和上行（即每个交换机 32 个端口向上，32 个端口向下）。该网络整体较为紧凑、带宽高，可以确保每个节点在极端的跳数内和其他节点畅通链接，确保了数据高效传输。MegaScale 实实现现了了更更高高模模型型训训练练效效率率。经过网络结构设计以及软件算法等各种优化，在 12288 个 GPU 上训练 1737、5B LLM 模型时，MegaScale 实现了高达 55.2%的MFU，相比 Megatron-LM，性能提升达 1.34 倍。图图 13、基基于于博博通通方方案案搭搭建建的的以以太太网网集集群群资料来源：MegaScale:Scaling Large Language Model Training to More Than 10,000 GPUs，兴业证券经济与金融研究院整理（二二）Meta：AI 互互联联规规模模升升至至 3 万万卡卡Meta 已已经经建建成成基基于于以以太太网网的的 2.4 万万 GPU 卡卡 AI 集集群群。2024 年 3 月 Meta 公布了其已经落地的两个 2438、K GPU 集群的硬件细节。公司预计到 2024 年底，公司有望拥请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-14-行行业业深深度度研研究究报报告告有包括 35 万张 H100 在内一共等效 60 万张 H100 的等效算力。Meta 第第三三代代 AI 集集群群规规模模升升至至 3.2 万万张张卡卡，并并采采用用以以太太网网进进行行搭搭建建。目前 Meta 的第三代 AI 集群规模已经升至 32K 规模，并继续选择使用以太网进行搭建，在网络设计上，较之前的完全无收敛有所改变。该集群一共拥有 8个cluster，每个cluster内部 16 张 H100 组39、成一个 Rack，每个 cluster 内部互联形成 252 个 rack，因此实现 252*8*16=32256 颗 GPU 互联。在每个 cluster 内部采用完全无收敛架构进行互联，cluster 之间互联采用 7：1 收敛比进行互联，即每个 cluster 内部互联带宽是 cluster 之外的 7 倍。图图 14、Meta 的的 32K GPU 训训练练集集群群资料来源：Meta，The next Platform，兴业证券经济与金融研究院整理2 2.3 3、博博通通和和英英伟伟达达方方案案提提供供互互联联技技术术基基础础（一一）博博通通：以以太太网网落落地地加加速速，交交换换机机40、容容量量不不断断升升级级。博通在 2023 年发布了 51.2t 交换容量的芯片 Tomahawk 5，此前定位仍是面向传统云计算市场带宽升级。2023 年 AI 进入高速发展时代，早期网络集群大部分采用英伟达的 IB 交换机方案，直到 2024 年伴随以太网本身性能优化，叠加成本优势，其在 AI 市场逐步具备落地基础。根据博通最新电话会情况，单季度网络部分收入达到 38 亿美元，主要由 AI 网络硬件以及定制化算力芯片驱动。在交换机层面，博通的合作对象包括 Arista、Dell、请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-15-行行业业深深度度研研究究报报41、告告Juniper 以及 Supermicro。在落地方面，全全球球正正在在部部署署的的最最大大的的 8 个个 AI 集集群群中中有有 7个个使使用用的的是是博博通通以以太太网网解解决决方方案案。2025 年年公公司司预预计计更更多多的的大大型型 AI 集集群群会会转转向向以以太太网网部部署署方方案案。关关于于下下一一代代 100T 交交换换容容量量芯芯片片 Tomahawk 6 预预计计会会在在 2025 年年稍稍晚晚时时间间发发布布。图图 15、博博通通以以太太网网交交换换芯芯片片不不断断升升级级资料来源：博通，兴业证券经济与金融研究院整理博博通通再再次次上上修修 AI 相相关关收收入入指42、指引引。根据博通最新电话会，由于公司在 AI 网络部分、AI 算力卡等环节取得的进展，公司将 AI 相关收入指引上修至 110 亿美元以上（此前 AI 相关收入指引为至少 100 亿美元），同时上修公司整体营收至 510 亿美元。请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-16-行行业业深深度度研研究究报报告告图图 16、博博通通此此前前 AI 相相关关收收入入指指引引资料来源：博通，兴业证券经济与金融研究院整理（二二）英英伟伟达达：强强调调以以太太网网方方案案部部署署，加加快快迭迭代代进进度度英英伟伟达达网网络络部部分分首首次次披披露露营营收收规规模模，以以43、太太网网进进展展加加速速。北美时间 2024 年 5 月 22日，英伟达披露了最新财报，此次财报，首次将网络部分（networking）进行分拆披露，数据显示，一季度公司在网络部分实现收入 31.7 亿美元，以太网部分，Spectrum-X 正在与多家客户进行量产，其中包括一个 10 万 GPU 的大型集群。预预计计 Spectrum-X 有有望望将将在在一一年年内内跃跃升升为为价价值值数数十十亿亿美美元元的的产产品品线线。图图 1 17 7、英英伟伟达达拆拆分分网网络络部部分分收收入入资料来源：英伟达，兴业证券经济与金融研究院整理在 2024 年 6 月的 Computex 会议的主题演讲上44、，英伟达进一步披露了关于以太网互联的后续规划，按照规划，英伟达2025年会推出单芯片交换容量在51.2t的800G交换机，并且有望在 2026 年推出单芯片交换容量在 102.4t 的 1.6t 交换机，即对应交换的迭代一年一代，且互联的 GPU 规模也将持续升级（未来有望升至百万颗请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-17-行行业业深深度度研研究究报报告告GPU 互联）。图图 1 18 8、英英伟伟达达以以太太网网交交换换机机迭迭代代规规划划资料来源：英伟达，云科技时代，兴业证券经济与金融研究院整理2 2.4 4、交交换换机机模模块块化化，推推动动 45、S Sc ca al le e o ou ut t 规规模模提提升升Arista：针针对对 AI 需需求求，提提出出不不同同交交换换机机互互联联方方案案。由于带宽和规模不同的要求，单一的交换机方案很难满足所有客户的需求，因此在客户需求匹配上 Arista 提供了一系列的解决方，对应 Arista Etherlink AI Platforms，可提供固定和模块化方案。图图 1 19 9、A Ar ri is st ta a 针针对对 A AI I 集集群群的的交交换换机机方方案案资料来源：Arista，兴业证券经济与金融研究院整理请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重46、要要声声明明-18-行行业业深深度度研研究究报报告告Arista 目前 AI 平台包括三个系列，分别是 7060X 固定模式系列、7800R 模块化方案以及 7700R 分布式系列（distributed Etherlink switch.）：1）7060X 固固定定模模式式系系列列（7060X series:fixed AI leaf）：该系列交换采用固定模式，其中 7060X6 基于博通最新 Tomahawk 5 系列交换芯片，交换机交换交换容量为51.2t（对应 64 个 800G 端口或者 128 个 400G 端口），支持 LPO 光模块。2）7800R 模模块块化化系系列列（78047、0R series:modularAI spine）：该系列最高可支持 460T的交换容量去满足 AI 需求，7800R 系系统统提提供供 4 插插槽槽、8 插插槽槽、12 插插槽槽或或 16 插插槽槽模模块块化化机机箱箱选选项项。在在 16 插插槽槽机机箱箱中中，支支持持多多达达 576 个个 800G 端端口口或或 1,152 个个 400G端端口口，以以最最大大限限度度地地提提高高网网络络负负载载能能力力。3）7700R 分分布布式式系系列列（7700R4:distributed Etherlink switch）：是由 Aritsa 提出的一个创新性解决方案，7700R4 DES 系统48、可能看起来类似于传统的叶/脊拓扑结构且布线互连相似。但是 7700R4 支持单跳转发范式，这与需要三跳转发的叶/脊设计不同。因此，整个 7700R4 DES 系统都得到了统一管理、完全调度，并在系统中的所有节点之间提供 100%公平、无损的传输。图图 2 20 0、A Ar ri is st ta a 三三个个交交换换机机系系列列资料来源：Arista，兴业证券经济与金融研究院整理交交换换机机端端口口数数不不断断提提升升下下，其其可可互互联联集集群群规规模模能能力力将将快快速速提提升升。由于 AI 集群本身对于算力的并发需求远超过传统云计算时代的需求，因此 AI 集群的搭建在网络拓扑结构上普遍49、会采用 Fat tree 网络结构，大部分集群互联网的规模会控制在三层以内。根根据据 Fat tree 拓拓扑扑结结论论，如如果果交交换换机机的的端端口口数数为为 K，则则：请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-19-行行业业深深度度研研究究报报告告两两层层网网络络，可可互互联联的的算算力力卡卡数数量量=K/2三三层层网网络络，可可互互联联的的算算力力卡卡数数量量=K/4因此若不断提升单台交换机端口数，其可互联的网卡数将实现指数级别提升，如当交换机端口数为 64 时，两层互联规模仅为 2048 张卡，三层互联网规模约为 8万张卡，若端口数提升至 128，50、则两层互联网规模可升至 8192 张卡，三层互联网规模约为 52 万张卡。图图 2 21 1、F Fa at t t tr re ee e 拓拓扑扑结结构构下下互互联联规规模模资料来源：Packetpushers，兴业证券经济与金融研究院整理2 2.5 5、光光模模块块：总总需需求求保保持持向向上上，硅硅光光是是趋趋势势光光模模块块和和算算力力需需求求成成正正比比，保保持持向向上上趋趋势势。光模块的核心功能在于完成光电信号转换及传输，传输带宽和拓扑结构决定了光模块用量。结合上文分析来看，AI 集群的规模不断升级，已经步入 10 万卡阶段，且有望不断扩大，对于算力的总需求仍保持持续向上趋势，因而51、对于光模块的总需求仍保持向上趋势。图图 2 22 2、A AI I 军军备备竞竞赛赛下下全全球球算算力力增增长长显显著著图图 2 23 3、中中国国 A AI I 投投入入加加速速增增长长资料来源：英伟达，兴业证券经济与金融研究院整理资料来源：IDC 中国，兴业证券经济与金融研究院整理注：2024 年及之后数据为预测数据请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-20-行行业业深深度度研研究究报报告告技技术术迭迭代代方方向向上上：硅硅光光是是趋趋势势，从从可可插插拔拔到到 CPO。当前光模块主流方式采用分立方式，这种模式下对于生产和制造均有一定的要求和限制，52、导致光模块更大规模两场会受制于更多环节。技术演技上，硅光是集成化趋势下的长期选择，并有望从可插拔硅光形式逐步过渡到 CPO 形式。从分立模式到可插拔硅光形式，对器件使用量有望减少 30%，集成度提升带动量产规模能力提升，再到 CPO 形态，光模块的形态会更加紧凑。图图 2 24 4、硅硅光光有有望望带带动动光光模模块块更更大大规规模模量量产产资料来源：博通，兴业证券经济与金融研究院整理1.6T 光光模模块块下下有有望望看看到到硅硅光光渗渗透透率率提提升升。硅光技术发展分为分立式硅基器件、耦合集成、单片集成演进、光电一体化等多个阶段，目前正处于耦合集成阶段。1.6T时代迭代 AI 突出的低功耗诉53、求，有望成为继 EML 后的重要补充方案。未来随着硅光子技术向单片集成技术发展，成熟 CMOS 工艺下成本有望进一步凸显，硅光为未来重要方向。请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-21-行行业业深深度度研研究究报报告告图图 25、硅硅光光技技术术迭迭代代路路线线资料来源：Yole，C114，兴业证券经济与金融研究院整理硅硅光光子子进进入入快快速速增增长长阶阶段段，数数通通光光模模块块是是应应用用核核心心下下游游之之一一。根据 Yole Group 最新数据，硅光子 PIC 市场预计从 2022 年 0.68 亿美元增长至 2028 年的 6.13 亿美元54、，2022-2028 年复合年增长率为 44%。增长主要：1）800G 高数据速率可插拔硅光模块需求释放；2）对快速增长的训练数据集大小的预测表明，数据将需要利用机器学习服务器中的光学 I/O 来扩展大模型。在落地形式上，预计可插拔硅光光模块先成熟，后演进至 CPO 形式。图图 26、2022-2028 硅硅光光子子 PIC 市市场场规规模模及及预预测测资料来源：Yole，C114，兴业证券经济与金融研究院整理请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-22-行行业业深深度度研研究究报报告告3、投投资资逻逻辑辑及及标标的的推推荐荐网络架构升级关注 Scale55、 up 和 Scale out 两个方面，在 Scale up 大厂迭代方向是将超节点规模做大，在 Sacle out 的趋势是不断做大 AI 集群规模，目前集群规模已经进入 10 万卡互联阶段。Scale up 推推动动互互联联带带宽宽升升级级，带带动动内内部部互互联联规规模模提提升升。大模型训练下通信需求最旺盛阶段存在于张量并行阶段，主要在超节点内部完成。超节点的趋势在于逐步做大内部带宽，推动内部互联规模提升，主流厂商英伟达采用 GB200 方案进行布局，靠 NVLINK 协议实现带宽升级，互联形式上带动铜互联需求提升。短短期期铜铜有有望望主主导导 Scale up 互互连连，长长期期来来56、看看伴伴随随带带宽宽升升级级，铜铜互互连连传传输输距距离离限限制制或或推推动动光光互互联联方方案案替替代代。Scale out 驱驱动动集集群群规规模模做做大大，交交换换机机或或升升级级为为模模块块化化方方案案，光光模模块块总总需需求求保保持持向向上上，有有望望迎迎来来硅硅光光加加速速阶阶段段。目前 AI 集群步入 10 万卡阶段，未来有望升至更大规模，交换机环节除了本身单交换机芯片容量升级加快之外，交换机厂商开始布局模块化方案，通过提高交换机端口数提升组网能力（目前 Ariste 已经有对应的方案推出，交换容量升级至 400T）；光模块环节总需求仍跟全球总算力成正比关系，保持向上趋势，在技术57、迭代上，硅光有利于提升更大规模量产能力，有望在1.6t 阶段开始不断提升渗透率，其落地形态为可插拔，并逐步过渡到 CPO。全全球球交交换换机机厂厂商商及及产产业业链链环环节节，以以及及已已经经进进入入全全球球供供应应链链的的全全球球领领先先光光模模块块厂厂商商值值得得重重点点关关注注。表表 2、交交换换机机及及光光模模块块产产业业链链受受益益标标的的交换芯片博通（美股）、Marvell（美股）、盛科通信等交换机Arista（美股）、思科（美股）、紫光股份、锐捷网络、菲菱科思等光模块/光引擎Coherent（美股）、中中际际旭旭创创、天天孚孚通通信信、新新易易盛盛、光迅科技、剑桥科技、华工科技等58、铜连接安费诺（美股）、鼎鼎通通科科技技、沃沃尔尔核核材材等硅光设备罗博特科资料来源：Wind，兴业证券经济与金融研究院整理投投资资建建议议：Scaling Laws 驱动 AI 算力集群规模快速提升，超节点内部带宽升级优先级更高，机柜内部硬件核心受益，节点间互联带宽亦快速增长，交换机模块化，光模块硅光渗透率提升趋势确定。光光模模块块、铜铜互互连连、以以太太网网交交换换机机核核心心受受益益。重点推荐：新易盛、中际旭创、天孚通信、鼎通科技等；建议关注：光迅科技、华工科技、盛科通信、紫光股份、锐捷网络、源杰科技等。请请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-23-行59、行业业深深度度研研究究报报告告4、风风险险提提示示1、以以太太网网交交换换机机在在 AI 市市场场进进展展不不及及预预期期。当前如果以太网本身进展不及预期，其在 AI 网络市场的落地就会出现延迟，进而影响产业相关公司收入节奏释放。2、AI 应应用用进进度度不不及及预预期期。算力的长期增量需求建立在 AI 发展之上，除了大模型本身带来的训练需求，AI 应用进展是更长维度的光模块需求增长前提。如果 AI应用进度不及预期，可能会对算力各个环节长期需求产生影响。3、行行业业竞竞争争加加剧剧。如果以太网成为 AI 落地组网主流选择，对应以太网领域的竞争有可能加剧，进而影响产业链所有相关公司的盈利能力。请60、请务务必必阅阅读读正正文文之之后后的的信信息息披披露露和和重重要要声声明明-24-行行业业深深度度研研究究报报告告分分析析师师声声明明本人具有中国证券业协会授予的证券投资咨询执业资格并登记为证券分析师，以勤勉的职业态度，独立、客观地出具本报告。本报告清晰准确地反映了本人的研究观点。本人不曾因，不因，也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。投投资资评评级级说说明明投投资资建建议议的的评评级级标标准准类类别别评评级级说说明明报告中投资建议所涉及的评级分为股票评级和行业评级（另有说明的除外）。评级标准为报告发布日后的12个月内公司股价（或行业指数）相对同期相关证券市场代61、表性指数的涨跌幅。其中：沪深两市以沪深300指数为基准；北交所市场以北证50指数为基准；新三板市场以三板成指为基准；香港市场以恒生指数为基准；美国市场以标普500或纳斯达克综合指数为基准。股票评级买入相对同期相关证券市场代表性指数涨幅大于15%增持相对同期相关证券市场代表性指数涨幅在5%15%之间中性相对同期相关证券市场代表性指数涨幅在-5%5%之间减持相对同期相关证券市场代表性指数涨幅小于-5%无评级由于我们无法获取必要的资料，或者公司面临无法预见结果的重大不确定性事件，或者其他原因，致使我们无法给出明确的投资评级行业评级推荐相对表现优于同期相关证券市场代表性指数中性相对表现与同期相关证券市62、场代表性指数持平回避相对表现弱于同期相关证券市场代表性指数信信息息披披露露本公司在知晓的范围内履行信息披露义务。客户可登录内幕交易防控栏内查询静默期安排和关联公司持股情况。使使用用本本研研究究报报告告的的风风险险提提示示及及法法律律声声明明兴业证券股份有限公司经中国证券监督管理委员会批准，已具备证券投资咨询业务资格。本报告仅供兴业证券股份有限公司（以下简称“本公司”）的客户使用，本公司不会因接收人收到本报告而视其为客户。本报告中的信息、意见等均仅供客户参考，不构成所述证券买卖的出价或征价邀请或要约，投资者自主作出投资决策并自行承担投资风险，任何形式的分享证券投资收益或者分担证券投资损失的书面63、或口头承诺均为无效，任何有关本报告的摘要或节选都不代表本报告正式完整的观点，一切须以本公司向客户发布的本报告完整版本为准。该等信息、意见并未考虑到获取本报告人员的具体投资目的、财务状况以及特定需求，在任何时候均不构成对任何人的个人推荐。客户应当对本报告中的信息和意见进行独立评估，并应同时考量各自的投资目的、财务状况和特定需求，必要时就法律、商业、财务、税收等方面咨询专家的意见。对依据或者使用本报告所造成的一切后果，本公司及/或其关联人员均不承担任何法律责任。本报告所载资料的来源被认为是可靠的，但本公司不保证其准确性或完整性，也不保证所包含的信息和建议不会发生任何变更。本公司并不对使用本报告所包64、含的材料产生的任何直接或间接损失或与此相关的其他任何损失承担任何责任。本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断，本报告所指的证券或投资标的的价格、价值及投资收入可升可跌，过往表现不应作为日后的表现依据；在不同时期，本公司可发出与本报告所载资料、意见及推测不一致的报告；本公司不保证本报告所含信息保持在最新状态。同时，本公司对本报告所含信息可在不发出通知的情形下做出修改，投资者应当自行关注相应的更新或修改。除非另行说明，本报告中所引用的关于业绩的数据代表过往表现。过往的业绩表现亦不应作为日后回报的预示。我们不承诺也不保证，任何所预示的回报会得以实现。分析中所做的回报预测可能是65、基于相应的假设。任何假设的变化可能会显著地影响所预测的回报。本公司的销售人员、交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本报告意见及建议不一致的市场评论和/或交易观点。本公司没有将此意见及建议向报告所有接收者进行更新的义务。本公司的资产管理部门、自营部门以及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。本报告并非针对或意图发送予或为任何就发送、发布、可得到或使用此报告而使兴业证券股份有限公司及其关联子公司等违反当地的法律或法规或可致使兴业证券股份有限公司受制于相关法律或法规的任何地区、国家或其他管辖区域的公民或居民，包括但不限于66、美国及美国公民（1934 年美国证券交易所第 15a-6 条例定义为本主要美国机构投资者除外）。本报告的版权归本公司所有。本公司对本报告保留一切权利。除非另有书面显示，否则本报告中的所有材料的版权均属本公司。未经本公司事先书面授权，本报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品，或再次分发给任何其他人，或以任何侵犯本公司版权的其他方式使用。未经授权的转载，本公司不承担任何转载责任。特特别别声声明明在法律许可的情况下，兴业证券股份有限公司可能会持有本报告中提及公司所发行的证券头寸并进行交易，也可能为这些公司提供或争取提供投资银行业务服务。因此，投资者应当考虑到兴业证券股份有限公司及/或其相关人员可能存在影响本报告观点客观性的潜在利益冲突。投资者请勿将本报告视为投资或其他决定的唯一信赖依据。兴兴业业证证券券研研究究上上海海北北京京深深圳圳地址：上海浦东新区长柳路36号兴业证券大厦15层邮编：200135邮箱：地址：北京市朝阳区建国门大街甲6号世界财富大厦32层01-08单元邮编：100020邮箱：地址：深圳市福田区皇岗路5001号深业上城T2座52楼邮编：518035邮箱：

通信行业AI深度洞察系列报告（三）：Scale up与Scaleout组网变化趋势如何看？-240823.pdf

定制报告-个性化定制-按需专项定制研究报告

行业报告、薪酬报告

联系：400-6363-638

下载