凯发k8国际首页登录科技
微信号:UnionScience
扫描关注,更多最新动态
近日◈ღ◈,国产开源大模型DeepSeek-V3凭借其卓越的性能和极低的训练成本◈ღ◈,在全球科技圈引发了广泛关注和热议◈ღ◈。这款由中国深度求索公司推出的AI大模型凯发app手机版下载◈ღ◈,不仅在技术上取得了突破性进展◈ღ◈,更以开源的形式◈ღ◈,为全球开发者提供了强大的工具◈ღ◈,标志着中国在人工智能领域的崛起◈ღ◈。
12月26日晚◈ღ◈,幻方量化旗下AI公司深度求索(DeepSeek)宣布◈ღ◈,全新系列模型DeepSeek-V3上线并同步开源◈ღ◈,API服务已同步更新◈ღ◈,接口配置无需改动◈ღ◈,登录官网(即可与最新版 V3 模型对话◈ღ◈。当前版本的 DeepSeek-V3 暂不支持多模态输入输出◈ღ◈。
具体来说◈ღ◈,DeepSeek-V3是一个具有6710亿总参数的MoE(混合专家)模型◈ღ◈,每token激活参数为370亿◈ღ◈,在14.8万亿token上进行了预训练◈ღ◈。
Deepseek的中文名是“深度求索”◈ღ◈,为量化巨头幻方量化的子公司◈ღ◈。在硅谷◈ღ◈,DeepSeek则被称作“来自东方的神秘力量”◈ღ◈。
对于任何一个想要在大模型赛道上冒头的新人而言◈ღ◈,OpenAI GPT-4o人工智慧◈ღ◈,◈ღ◈、Meta Llama-3.1-405B等成名许久的前辈都是需要挑战的对象◈ღ◈,DeepSeek-V3能够快速引爆全球科技圈关注◈ღ◈,正是得益于其不输前辈的性能◈ღ◈。
·数学◈ღ◈:在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上◈ღ◈,DeepSeek-V3 大幅超过了所有开源闭源模型◈ღ◈。
非常有意思的是DeepSeek-V3虽然拥有高达6710亿的参数量◈ღ◈,但每次推理仅激活370亿参数◈ღ◈,这种设计使得它在保持高性能的同时◈ღ◈,也具备了高效性◈ღ◈。这一特点在全球范围内都极为罕见◈ღ◈,使得DeepSeek-V3一经发布◈ღ◈,便受到了技术社区的高度关注◈ღ◈。
DeepSeek-V3采用了混合专家(MoE)架构◈ღ◈,这是一种机器学习架构◈ღ◈,通过组合多个专家模型◈ღ◈,在处理复杂任务时能够显著提升效率和准确度◈ღ◈。DeepSeek-V3的MoE架构包含256个专家◈ღ◈,每次计算时动态选择前8个最相关的专家参与◈ღ◈,这种设计既提高了计算效率凯发国际K8官网◈ღ◈。◈ღ◈,又确保了模型的准确性◈ღ◈。
与此同时◈ღ◈,DeepSeek-V3采用了无辅助损失的负载平衡策略◈ღ◈,并设定了多token预测训练目标◈ღ◈,提高了数据效率和模型的生成速度◈ღ◈,使其生成吐字速度从20TPS大幅提升至60TPS◈ღ◈,相比上代实现了3倍的提升凯发app手机版下载◈ღ◈。其预训练数据达到了14.8万亿◈ღ◈,并且在数据处理流程上进行了改进◈ღ◈,进一步提升了数据质量和模型性能◈ღ◈。
此外凯发k8◈ღ◈,DeepSeek-V3还采用了创新的知识蒸馏方法◈ღ◈,将推理能力迁移到标准LLM中◈ღ◈,同时保留输出风格和长度控制◈ღ◈,这种技术不仅提高了模型的推理性能◈ღ◈,还使得模型在应用上更加灵活◈ღ◈。
单看性能◈ღ◈,DeepSeek-V3作为大模型赛道“新人”◈ღ◈,其上演“长江后浪推前浪”的戏码并没啥问题◈ღ◈,事实上◈ღ◈,真正让DeepSeek-V3刷爆科技圈的也并非性能凯发天生赢家一触即发◈ღ◈,而是成本◈ღ◈!
深度求索使用英伟达H800 GPU在短短两个月内就训练出了DeepSeek-V3◈ღ◈,仅花费了约558万美元◈ღ◈。其训练费用相比GPT-4等大模型要少得多◈ღ◈,据外媒估计◈ღ◈,Meta的大模型Llama-3.1的训练投资超过了5亿美元◈ღ◈。
这意味着DeepSeek-V3拥有极高的性价比◈ღ◈,具体到GPU小时上的话◈ღ◈,DeepSeek-V3训练仅需266.4万H800 GPU小时◈ღ◈,加上上下文扩展与后训练◈ღ◈,总计也不过278.8万GPU小时◈ღ◈。与之对比◈ღ◈,Llama3-405B的训练数据则高达3080万H100 GPU小时凯发app手机版下载◈ღ◈,DeepSeek-V3的训练成本优势可见一斑◈ღ◈。这使得更多的企业和开发者能够承担起使用这一模型的成本◈ღ◈,进一步推动了AI技术的普及和应用◈ღ◈。
尤其是因为美国的出口管制限制◈ღ◈,DeepSeek-V3无法使用最顶尖的NVIDIA GPU集群◈ღ◈,但开发者们通过优化训练方法◈ღ◈,在2048个带宽缩减版NVIDIA H800 GPU集群上实现了同样的效果◈ღ◈。这种创新不仅展示了中国团队的技术实力◈ღ◈,也打破了国际科技巨头对高端硬件资源的垄断◈ღ◈。
OpenAI创始成员Karpathy甚至对此称赞道◈ღ◈:“DeepSeek-V3让在有限算力预算上进行模型预训练这件事变得容易◈ღ◈。DeepSeek-V3看起来比Llama-3-405B更强◈ღ◈,训练消耗的算力却仅为后者的1/11◈ღ◈。”
目前◈ღ◈,DeepSeek-V3正式定价为每百万输入tokens 0.5元(缓存命中)/2元(未命中)◈ღ◈,输出tokens每百万8元◈ღ◈。这一价格远低于市场上其他大型语言模型的API价格◈ღ◈,如Claude 3.5 Sonnet的输入价格为3美元/百万◈ღ◈,输出价格为15美元/百万◈ღ◈。DeepSeek-V3的优惠价格使得更多用户能够负担得起使用大型语言模型的费用◈ღ◈。
为了回馈用户北山惠理◈ღ◈,DeepSeek-V3还推出了45天的限时优惠活动◈ღ◈。在优惠期间凯发app手机版下载◈ღ◈,API使用费最高直降80%◈ღ◈,即每百万输入tokens 0.1元(缓存命中)/1元(未命中)◈ღ◈,输出tokens每百万仅2元◈ღ◈。这一活动进一步降低了用户的使用成本◈ღ◈,使得更多用户能够体验到DeepSeek-V3的强大功能◈ღ◈。
2024年5月6日◈ღ◈,幻方旗下深度求索(Deepseek)发布最新MoE模型DeepSeek-V2,并将模型的 API定价为:每百万tokens输入 1元◈ღ◈、输出2元(32K 上下文)◈ღ◈,价格仅为 GPT-4-Turbo 的近百分之一◈ღ◈,刷新了大模型 API 的低价记录北山惠理◈ღ◈。随后◈ღ◈,部分国内大模型初创公司◈ღ◈、互联网厂商◈ღ◈、科技公司等陆续宣布模型 AP 降价◈ღ◈,有些甚至将 API 免费提供凯发app手机版下载◈ღ◈。
技术上看◈ღ◈,确实能够通过优化 Transformer 架构中的各个部件,实现推理成本的降低◈ღ◈。DeepSeek V2 本身就是典型的实践◈ღ◈,其降本逻辑在于◈ღ◈:改进的 MOE 架构◈ღ◈,降低训练成本◈ღ◈;优化的 KV cache 机制◈ღ◈,大幅降低推理成本ChatGPT◈ღ◈,◈ღ◈。
如果其他国内模型厂商◈ღ◈,同样在底层应用了类似的优化技术◈ღ◈,那么降本就是已经发生的过去式◈ღ◈,DeepSeekV2 在5月的降价或是激发各厂家拿出“技术降本”结果◈ღ◈。字节火山引擎总裁谭待在 5月豆包发布会上也指明◈ღ◈,降价的背后主要原因是技术◈ღ◈,未来还有很多手段继续降低成本北山惠理◈ღ◈,并不亏损◈ღ◈。
从DeepSeek V2开始◈ღ◈,深度求索就引入MLA多头隐注意力机制◈ღ◈,大幅降低了KV cache的大小◈ღ◈。而DeepSeek-V3对于成本的降低主要可分训练成本和推理成本两个方面◈ღ◈。
在降低训练成本上◈ღ◈,DeepSeek-V3引入了FP8混合精度训练框架◈ღ◈,首次验证了FP8训练在超大规模模型上的可行性和有效性◈ღ◈。通过使用低精度数据格式进行训练◈ღ◈,加速了训练过程并减少了内存使用◈ღ◈,从而降低了训练成本◈ღ◈,并引入DualPipe双向流水线◈ღ◈,通过重叠前向和后向计算与通信来减少流水线气泡◈ღ◈,提高了训练效率◈ღ◈。高效的跨节点通信内核利用IB和NVLink带宽◈ღ◈,进一步减少了通信开销◈ღ◈。
而在降低推理成本上◈ღ◈,DeepSeek-V3采用了混合专家模型(MoE)架构◈ღ◈,每个专家模型只处理部分输入◈ღ◈,提高了模型的效率和扩展性凯发k8国际◈ღ◈!◈ღ◈。通过优化MoE架构中的专家负载均衡◈ღ◈,进一步降低了推理成本◈ღ◈。MLA(Multi-Head Latent Attention)机制则通过低秩压缩减少KV缓存◈ღ◈,提高了推理效率凯发app手机版下载◈ღ◈。这种机制减少了推理过程中的计算量◈ღ◈,从而降低了推理成本◈ღ◈。
此外◈ღ◈,DeepSeek-V3将DeepSeek-R1的推理模式融入其中◈ღ◈,提高了模型的推理性能凯发app手机版下载◈ღ◈,借助提炼和优化推理能力◈ღ◈,进一步降低了推理成本◈ღ◈。
值得一提的是降价并不是国内“特色”◈ღ◈,OpenAl已经进行了多次降价◈ღ◈。OpenAl的 GPT-3.5 turbo 系列从 23年3月问世以来◈ღ◈,已经经历了三次降价◈ღ◈,最新价格与最初价格相比◈ღ◈,输入价格降低了75%,输出价格降低了 25%,上下文长度提升 4x;GPT-4 系列的 turbo 与 40 版本出现后也在屡次刷新 OpenAl 模型的价格底线 系列价格也在逐渐降低
在这种情况下◈ღ◈,借 DeepSeek“技术降价”引起的大模型降本浪潮◈ღ◈,通过压低价格吸引应用开发者◈ღ◈,或是培养自身开发者生态的重要举措◈ღ◈。开发者生态的繁荣◈ღ◈,是形成“数据和场景→模型迭代→模型性能提升→更多开发者→更多数据”正向反馈的重要基础◈ღ◈,短期牺牲部分成本◈ღ◈,长期看或仍然划算◈ღ◈。
5月凯发app手机版下载◈ღ◈,0penAl发布新的旗舰模型GPT-40:实现跨模态即时响应◈ღ◈,相比GPT-4 Turbo,刷新SOTA实现性能飞跃◈ღ◈。同月◈ღ◈,Google发布Gemini1.5 Pro进阶版北山惠理◈ღ◈,实现200万tokens上下文◈ღ◈,具备更强大的推理和理解能力◈ღ◈。6月◈ღ◈,Antropic发布Claude 3.5 Sonnet,具备更强的代码和视觉能力◈ღ◈,基准测试结果全方位碾压Gemini 1.5 Pro和Llama-400b,大部分优于 GPT-4o◈ღ◈,一定程度上暂时代表着当前大模型性能最高水平◈ღ◈。
整体比较而言◈ღ◈,国内大模型与GPT-4(官网)尚存在明显差距◈ღ◈,但个别能力上已展现出优势◈ღ◈,尤其是在长文本理解和应用上◈ღ◈,国内长文本能力赶超了部分国外大模型◈ღ◈。
抢占长文本这样的细分赛道外北山惠理◈ღ◈,降价抢占API调用量◈ღ◈,撬动大模型“飞轮迭代”也成为国内大模型企业崛起的关键◈ღ◈。随着技术进步和市场竞争◈ღ◈,大模型训练&推理成本降低◈ღ◈,国内大模型厂商纷纷降价◈ღ◈,以吸引用户和提高市场份额◈ღ◈。这里要提一句的是◈ღ◈,降价不等于恶性竟争和模型缺陷◈ღ◈,更多的是在技术支持下商业逻辑的打磨与模型能力的完善◈ღ◈,与其是DeepSeek“技术降价”◈ღ◈,更成为国内大模型企业崛起的关键◈ღ◈。
此次DeepSeek-V3的推出被视为中国AI技术从“追赶”到“领先”的转折点◈ღ◈。它不仅在技术上实现了对国际顶尖模型的超越◈ღ◈,还通过低成本和高性能的商业模式◈ღ◈,为全球AI应用的推广提供了新的路径◈ღ◈。未来◈ღ◈,随着技术的进一步优化和硬件成本的降低◈ღ◈,DeepSeek-V3有望在教育北山惠理◈ღ◈、医疗◈ღ◈、金融等多个领域发挥更大的作用◈ღ◈。
0871-63302133 63302233
昆明市盘龙区新兴路霖岚国际凯发k8国际首页登录
http://www.hbzfgc.com