相关文章
DeepSeek开源周第二弹:DeepEP如何用RDMA+FP8让MoE模型飞起来?
一、引言:MoE模型的通信瓶颈与DeepEP的诞生
在混合专家(MoE)模型训练中,专家间的全对全(All-to-All)通信成为性能瓶颈。传统方案在跨节点传输时带宽利用率不足50%,延迟高达300μs以上。DeepSee…
建站知识
2025/3/6 20:43:29
Zion x 硅基流动 DeepSeek接入指南
Zion无代码平台已成功接入硅基流动DeepSeek模型,进一步拓展了AI能力的边界。此外,Zion目前也支持DeepSeek开放平台、腾讯云、智谱、零氪云等8家主流AI服务平台的无缝对接,为开发者提供更丰富、更灵活的AI能力调用选择。 👉 详细更…
建站知识
2025/3/3 2:20:08
大语言模型训练的目标(不同的结构和阶段)
大语言模型(Large Language Models, LLMs)的训练目标是其能力的核心来源,决定了模型如何从海量数据中学习语言规律和知识。以下是其训练目标的分类和详细说明: 一、预训练阶段的核心目标
预训练是LLMs的基础阶段,通过…
建站知识
2025/3/3 2:19:04
2025年山东省职业院校技能大赛(高职组)“云计算应用”赛项赛卷4
2025年山东省职业院校技能大赛(高职组)“云计算应用”赛项赛卷4 2025年山东省职业院校技能大赛(高职组)“云计算应用”赛项赛卷4模块一 私有云(30分)任务1 私有云服务搭建(5分)任务2…
建站知识
2025/3/6 20:51:17
《动手学习深度学习》的笔记,将会持续更新。
1.什么是机器学习?
机器学习是:换句话说,我们用数据训练(train)模型。
数据不断的训练出比较好的模型。 1.2 机器学习的关键零件
1.学习的数据。
2. 如何转换数据的模型。
3.一个目标函数。
4.调整模型参数以优化目标函数的算法。
1,数据有什么组成?
数据=样本+…
建站知识
2025/3/3 2:17:02
【2024 CSDN博客之星】我的年度总结与创作历程回顾
个人名片 🎓作者简介:java领域优质创作者 🌐个人主页:码农阿豪 📞工作室:新空间代码工作室(提供各种软件服务) 💌个人邮箱:[2435024119qq.com] 📱…
建站知识
2025/3/4 3:07:06
Ubuntu 22.04 安装Nvidia驱动加速deepseek
一键安装22.04 nvidia 驱动
nvidia 官网下载驱动我的环境是NVIDIA RTX A5000nvidia 文档参考没有安装驱动之前确认自己的型号 lspci | grep -i vga (如数字2231) 参考docker 支持nvidia ,注释了需要的取消注释即可 42行-92行一定要重启服务器…
建站知识
2025/3/4 3:07:21