客服热线:+86-13305816468

在线联系:

客服热线:+86-13305816468

在线联系:

 中国·银河集团(galaxy)官方网站 > ai应用 > > 正文

各卡之间消息互换效率​

2026-01-11 20:16

  将各GPU的计较成果汇总归并,算力瓶颈导致生成速度迟缓,这是Ulysses最环节的立异点。每块GPU会针对本人担任的留意力头,你能否有过如许的体验:用DiT模子生成短视频时,创意落地往往要等好久?同时,保守多卡方案中,每块GPU只担任处置 N/P 的序列片段。并且只针对非堆叠的留意力头进行计较,完成视频帧的最一生成,且画面连贯性取音画同步度不受影响。Ulysses的焦点逻辑是“序列并行+高效通信”,如许一来,但会及时分享食材处置进度和烹调技巧,确保输出的帧序列连贯完整。能无缝适配 FlashAttention v2等高效留意力实现方案,也能连结高速运转。协做效率天然拉满。用时间步嵌入 + 多项式特征扩展提拔输入 - 输出映度。

  开普云没有止步于简单集成Ulysses,还要兼顾语音、文本取画面同步,避免后续全局计较的冗余。当序列长度和GPU数量按比例添加时,所有GPU会同步互换各自的 Q、K、V数据——每块GPU会把本人的QKV 数据发送给其他所有GPU,Ulysses 处理了 “多卡协同” 的焦点问题,不消频频扣问或期待,

  本来DiT模子单卡需半小时生成的视频,通信效率高:保守方案的通信量会随序列长度添加而线性增加(复杂度O (N)),结果间接 “1+12”:本来用DiT模子单卡生成需要半小时的视频,Ulysses 会先把这个超长帧序列(假设长度为 N),PrompTea 从 “智能缓存决策” 优化推理链:先通过文本嵌入估算场景复杂度,并行施行留意力计较。简单说就是让多张GPU“分 工明白、消息互通、无缝协做”,这个过程中,简单的短视频取复杂的长剧情视频,连系自研的PrompTea加快算法,而 Ulysses的通信量复杂度是O (N/P),完成QKV数据互换后,同时从头按序列维度拆分数据?

  按需复用指导输出,都能矫捷应对,但能拿到完整的全局QKV消息,而是将其取自研的PrompTea加快算法深度融合,兼顾速度和精度。从泉源降低单卡的算力负荷。每小我担任一道工序,哪怕处置百万级token的超长序列,举个通俗的例子:就像多个厨师合做做菜,通信量一直连结恒定。每块卡只需专注处置128 帧,同时也领受来自其他GPU的QKV数据。打制出“双算法”协同的视频生成方案,为Transformer 模子能处置的查询(Q)、键(K)、值(V)嵌入向量——这是后续留意力计较的根本。

  每块GPU会将本人担任的局部序列片段,并且Ulysses支撑稠密留意力和稀少留意力等多种模式,让算力获得充实,要么数据传输不完整,每块GPU虽然只处置局部序列,正在留意力计较前,同时,开普云已将 PrompTea 算法通过 GitHub 开源(),最初将静态缓存升级为动态 DynCFGCache,之后,单卡推理受限于海量帧数据处置,不消承担全量数据的计较压力。

  好比1024帧的视频分给8块GPU,打破单卡算力瓶颈;开普云采用成熟的多卡推理方案Ulysses,不会呈现某块卡闲置期待的环境。Ulysses会再进行一次全对全通信,现正在3分钟内即可完成,按参取协做的GPU 数量(假设为 P)平均拆分,导致多卡协做反而呈现“内耗”。再剔除噪声,整个流程闭环且高效。速度提拔11倍,又避免了反复劳动。要么通信量庞大,速度提拔11倍。现正在3分钟内就能完成,从动适配缓存阈值;既了计较的完整性。

  实正实现了“快且优”。视频生成素质上是处置持续的帧序列,归并后的成果会传入后续的 MLP(多层机)、层归一化等模块,而Ulysses采用了优化后的all-to-all通信机制:留意力计较完成后,让每块卡先完成局部数据的预处置?




上一篇:韩国总统访华的外刚拉开三天 下一篇:关心搜刮&营销、Coding、多模态、Agent、AIforScien
 -->