找到
41
篇与
dd
相关的结果
- 第 2 页
-
PFC和ECN PFC是属于 数据链路层(L2) 的以太网控制机制。 L2:PFC(硬暂停) L3:ECN(拥塞标记) L4:DCQCN(降速算法) PFC 控制链路 ECN 控制拥塞 DCQCN 控制速率 PFC(Priority Flow Control)是 IEEE 802.1Qbb 定义的 以太网二层流控机制,通过发送 L2 Pause Frame 控制对端暂停指定优先级流量,用于构建无损以太网。 PFC是谁暂停发送,是交换机和GPU网卡? 谁收到 PFC Pause Frame 谁就暂停发送 也就是说: 交换机收到 → 交换机暂停发送 GPU服务器网卡(NIC)收到 → NIC暂停发送 PFC本质是 接收端告诉对端:你先别发了,我要满了。 一、最常见的场景(AI / RoCE 网络) 交换机检测到队列拥塞 GPU NIC ─────→ ToR Switch 发送数据 交换机 buffer 快满: ToR Switch ↓ 发送 PFC PauseGPU NIC ↓ 暂停发送 RoCE 流量 所以这里: 设备 行为 交换机 发送 PFC GPU NIC 暂停发送 二、另一种情况(反向) 如果 GPU NIC 接收缓存满: Switch ─────→ GPU NIC GPU NIC 会发送: GPU NIC ↓ PFC Pause FrameSwitch ↓ 暂停发送 所以: 设备 行为 GPU NIC 发送 PFC 交换机 暂停发送 -
GPU2 # 什么是AI超算网络?传统网工必须了解的新赛道来了! 同学们,新年伊始, 网工要正式进入一个全新的领域了—— # AIDC 韩老师会围绕 **AI 超算网络、智算中心** 这个方向,持续输出内容。 这不是追热点,而是因为: > **网络工程师的下一个增长极,就在这里。** --- ## 🗓 直播信息 - **时间:3月4日晚上 19:20** - **主题:AI超算网络系列直播第一讲** - **标题:《什么是 AI 超算网络?》** - **地点:YESLAB新网工 直播间** - **备注:系列第一讲,后续持续更新** --- # 什么是 AI 超算网络? 你可能听说过: - 智算中心 - GPU 集群 - 万卡训练 但这些和网络有什么关系? 简单说: > 训练一个大模型,需要成千上万张 GPU 同时工作。 > 这些 GPU 之间怎么连接、怎么通信,就是 **AI 超算网络** 要解决的问题。 --- # 🎯核心结论先说 ```text AI超算网络 = 为大规模GPU协同训练而设计的高性能网络 它解决的核心问题不是“能不能通”, 而是“如何以极低延迟、超高带宽、尽量不丢包的方式高效通信” ``` --- # 一、为什么 AI 训练需要特殊的网络? 传统数据中心的网络,主要服务于“东西向流量”——服务器之间传数据。 一般来说: - 延迟高一点,问题不一定大 - 偶尔丢个包,也还能靠 TCP 重传兜底 但 **AI 训练完全不同**。 ## 📌AI 训练的四个核心特征 ```text 规模大:一次训练动辄几千张 GPU,全部要协同计算 通信量巨大:每一轮梯度同步(All-Reduce),所有 GPU 都要互相交换数据 延迟敏感:网络慢一点点,整个训练集群都要等,GPU 白白空转 带宽要求极高:单卡带宽需求轻松达到 400Gbps 甚至 800Gbps ``` ## 🧠一句话理解 > 传统网络更关注“能传”; > AI 超算网络更关注“传得快、传得稳、传得足够同步”。 --- # 二、AI 超算网络长什么样? 一个典型的 AI 超算网络,通常可以分成三部分: - **计算网络(GPU 互联网络)** - **存储网络** - **管理网络** --- ## 🧩1)计算网络(GPU 互联网络) 这是 GPU 之间直接通信的网络,核心目标非常明确: > **极低延迟 + 超高带宽** 常见技术包括: ### **InfiniBand(IB)** - 目前 AI 训练最主流的选择 - NVIDIA 主导 - 延迟极低 - 常见于高性能训练集群 ### **RoCE(RDMA over Converged Ethernet)** - 基于以太网实现 RDMA - 更容易结合现有以太网体系 - 国内很多超大规模集群广泛采用 ### **NVLink / NVSwitch** - NVIDIA GPU 之间的高速互联技术 - 更偏 GPU 内部/节点内部互联 - 带宽可达数 TB/s 📌一句话: ```text IB / RoCE 更偏“节点之间怎么高速通信” NVLink / NVSwitch 更偏“节点内部 GPU 之间怎么高速互联” ``` --- ## 🗄 2)存储网络 存储网络主要负责: - 训练数据读取 - 模型 checkpoint 写入 - 数据集分发 - 中间结果落盘 这部分虽然不像 GPU 互联那么“极致敏感”, 但一旦跟不上,同样会拖慢整体训练效率。 --- ## 🛠 3)管理网络 管理网络主要负责: - 带外管理 - 健康监控 - 故障检测 - 设备运维接入 这部分和传统数据中心网络更接近, 但随着集群规模变大,要求也在不断提高。 --- # 三、和传统网络有什么不同? ## 📌AI 超算网络 vs 传统数据中心网络 | 对比维度 | 传统数据中心网络 | AI 超算网络 | |------|------|------| | 流量模型 | Client-Server,南北向为主 | All-to-All,东西向为主 | | 带宽要求 | 10G / 25G / 100G | 400G / 800G 起步 | | 延迟要求 | 毫秒级可接受 | 微秒级,极度敏感 | | 丢包容忍 | 有 TCP 重传兜底 | RDMA 场景几乎零容忍 | | 核心协议 | TCP/IP | RoCEv2 / InfiniBand | | 典型设备 | 传统交换机 | 支持 RoCE / IB 的专用交换机 | ## 🧠一句话总结 ```text 传统数据中心网络重点是“通用性” AI 超算网络重点是“极致性能” ``` --- # 四、网络工程师为什么要关注这个方向? 过去十年,网络工程师的核心战场主要是: - 企业园区网 - 运营商承载网 - 传统 IDC 但现在,随着国内智算中心建设爆发,一批新的岗位需求正在快速出现。 ## 🚀正在涌现的新方向 - AI 网络架构设计 - RoCE / InfiniBand 网络部署调优 - 大规模 GPU 集群网络运维 - AIDC 网络方案售前 / 售后 ## 📌这些岗位的共同特点 ```text 既需要扎实的网络基础, 又需要理解 AI 训练的通信模型 ``` 也就是说: > 这并不是完全脱离传统网工的新领域, > 而是在传统网络基础上,向更高性能、更高密度、更高要求的方向升级。 --- # 五、为什么这是传统网工的新机会? 很多人会觉得: > AI、GPU、大模型,好像离网络工程师很远。 其实恰恰相反。 因为 AI 训练不是只靠 GPU 堆起来的, 它背后必须有一张真正能支撑大规模并行训练的网络。 ## 🎯对传统网工来说,这意味着什么? - 以前懂 VLAN / OSPF / BGP / VXLAN / 数据中心架构,只是基础 - 现在还需要继续理解 **RDMA、RoCE、IB、无损网络、拥塞控制** - 未来网络岗位的“高价值区”,会越来越靠近 **AIDC / 智算中心 / GPU 集群** ## 🧠一句话 > **懂传统网络的人,不一定懂 AI 超算网络; > 但懂 AI 超算网络的人,一定离不开传统网络基础。** --- # 六、这次直播会讲什么? 这是 **AI超算网络系列直播的第一讲**, 专门为传统网络工程师和运维同学量身设计。 ## ✅本讲重点 - 为什么 AI 训练对网络有这么极端的要求? - 熟悉了解 AI 超算网络的整体全貌 ## 📌后续系列还会继续深挖 - IB vs RoCE 怎么选 - AIDC 拓扑怎么设计 - 传统网工怎么切入这个赛道 --- # 🎯总结(背诵/面试可直接说) ```text AI超算网络,本质上是为大规模GPU协同训练而设计的高性能网络。 它和传统数据中心网络最大的区别在于: 通信模型更偏All-to-All, 带宽要求更高, 延迟要求更低, 对丢包更敏感。 典型技术包括 InfiniBand、RoCE、NVLink / NVSwitch, 并通常由计算网络、存储网络和管理网络共同组成。 随着智算中心和AIDC建设加速, AI超算网络正在成为传统网络工程师值得重点关注的新方向。 ``` --- # 🧱快速图示 ```text AI 超算网络 │ ┌──────────────┼──────────────┐ │ │ │ 计算网络 存储网络 管理网络 (GPU高速互联) (数据/Checkpoint) (带外/监控/运维) │ ├─ InfiniBand(IB) ├─ RoCE └─ NVLink / NVSwitch ``` --- # 🧊最后一句话 > **如果说传统数据中心网络解决的是“业务怎么连得起来”, > 那 AI 超算网络解决的就是“训练怎么跑得起来、跑得更快、跑得更稳”。** -
GPU网络 什么是AI超算网络?传统网工必须了解的新赛道来了! 网工要正式进入一个全新的领域了—— AIDC 围绕 AI 超算网络、智算中心 这个方向,持续输出内容。这不是追热点,而是因为—— 网络工程师的下一个增长极,就在这里。 AI超算网络系列直播第一讲: 《什么是 AI 超算网络?》 📍 📌 什么是 AI 超算网络? 你可能听说过“智算中心”、“GPU 集群”、“万卡训练”……但这些和网络有什么关系? 简单说:训练一个大模型,需要成千上万张 GPU 同时工作。这些 GPU 之间怎么连接、怎么通信,就是 AI 超算网络 要解决的问题。 我们来拆解一下。 一、为什么 AI 训练需要特殊的网络? 传统数据中心的网络,主要服务于“东西向流量”——服务器之间传数据,延迟高一点、偶尔丢个包,问题不大。 但 AI 训练完全不同: 规模大: 一次训练动辄用几千张 GPU,全部要协同计算 通信量巨大: 每一轮梯度同步(All-Reduce),所有 GPU 都要互相交换数据 延迟敏感: 网络慢一点点,整个训练集群都要等,GPU 白白空转 带宽要求极高: 单卡带宽需求轻松达到 400Gbps 甚至 800Gbps 专门为 AI 设计的网络架构就自然而然出来了 二、AI 超算网络长什么样? 一个典型的 AI 超算网络,通常分为: 1. 计算网络(GPU 互联网络) 这是 GPU 之间直接通信的网络,追求 极低延迟 + 超高带宽。 常见技术: InfiniBand(IB):目前 AI 训练最主流的选择,NVIDIA 主导,延迟极低 RoCE(RDMA over Converged Ethernet):基于以太网实现 RDMA,国内超大规模集群广泛采用 NVLink / NVSwitch:NVIDIA 自家 GPU 之间的高速互联,带宽可达数 TB/s 深度解析|以太网 vs InfiniBand 的区别 2. 存储 & 管理网络 训练数据、模型 checkpoint 的读写走存储网络;带外管理、健康监控走管理网络。这部分和传统数据中心网络更接近,但带宽要求也在快速拉升。 三、和传统网络有什么不同? 对比维度 传统数据中心网络 AI 超算网络 流量模型 Client-Server,南北向为主 All-to-All,东西向为主 带宽要求 10G / 25G / 100G 400G / 800G 起步 延迟要求 毫秒级可接受 微秒级,极度敏感 丢包容忍 有 TCP 重传兜底 RDMA 场景几乎零容忍 核心协议 TCP/IP RoCEv2 / InfiniBand 典型设备 传统交换机 支持 RoCE/IB 的专用交换机 四、网络工程师为什么要关注这个方向? 过去十年,网络工程师的核心战场是:企业园区网、运营商承载网、传统 IDC。 而现在,随着国内智算中心建设的爆发,一批新的岗位需求正在快速涌现: AI 网络架构设计 RoCE / InfiniBand 网络部署调优 大规模 GPU 集群网络运维 AIDC 网络方案售前 / 售后 这些岗位, 既需要扎实的网络基础, 又需要理解 AI 训练的通信模型 ——正好是新网工同学的机会窗口。 直播,韩老师会讲什么? 这是 AI超算网络系列直播的第一讲 专门为传统网络工程师和运维同学量身设计。 把“什么是AI超算网络”讲清楚: ✅ 为什么 AI 训练对网络有这么极端的要求? ✅ 熟悉了解 AI 超算网络的整体全貌 后续系列再逐期深挖:IB vs RoCE 怎么选、AIDC 拓扑怎么设计、传统网工怎么切入这个赛道…… 零基础也能听懂,希望对你的职业未来发展有更新的认识 预约方式