凯发·K8国际- (中国)登录首页

关于凯发国际K8官网 核心技术 云计算 大数据 物联网 人工智能 产品中心 基础软件 综合数据采集平台 数据交互传输平台 交通地理信息基础平台 专业软件 视频联网监控平台 监控组态平台 数字紧急电话及广播系统 应用软件 (区域、中心级) 高速公路省(区)应急救援管理平台 数字化路网综合监控管理平台 交通物联网运行监测平台 综合交通出行服务平台 应用软件 (路段级) 隧道(群)综合监控管理平台 隧道消防联动及应急处置系统 桥梁监测管理系统 公路治超管理系统 绿通车稽查分析平台 路视通 硬件产品 可编程逻辑控制器(PLC) 分布式可编程电机控制器 US-ISC智能信号控制机 US-ATS智能交通信号机 IP紧急电话及广播终端 超高频RFID射频识别 解决方案 智慧交通 智慧警务 智慧工厂 智慧司法 智慧住建 智慧医疗 智慧城市 智慧教育 智慧林草 联诚云 智慧烟草 凯发k8国际首页登录 凯发k8国际动态 最新消息 媒体报导 行业动态 加入我们
凯发k8国际首页登录
———凯发k8国际首页登录
凯发app手机版下载|北山惠理|拳打OpenAI、脚踢Meta国产大模型迎来转折
2025-02-04凯发k8国际首页登录分享

  近日◈ღ◈,国产开源大模型DeepSeek-V3凭借其卓越的性能和极低的训练成本◈ღ◈,在全球科技圈引发了广泛关注和热议◈ღ◈。这款由中国深度求索公司推出的AI大模型凯发app手机版下载◈ღ◈,不仅在技术上取得了突破性进展◈ღ◈,更以开源的形式◈ღ◈,为全球开发者提供了强大的工具◈ღ◈,标志着中国在人工智能领域的崛起◈ღ◈。

  12月26日晚◈ღ◈,幻方量化旗下AI公司深度求索(DeepSeek)宣布◈ღ◈,全新系列模型DeepSeek-V3上线并同步开源◈ღ◈,API服务已同步更新◈ღ◈,接口配置无需改动◈ღ◈,登录官网(即可与最新版 V3 模型对话◈ღ◈。当前版本的 DeepSeek-V3 暂不支持多模态输入输出◈ღ◈。

  具体来说◈ღ◈,DeepSeek-V3是一个具有6710亿总参数的MoE(混合专家)模型◈ღ◈,每token激活参数为370亿◈ღ◈,在14.8万亿token上进行了预训练◈ღ◈。

  Deepseek的中文名是“深度求索”◈ღ◈,为量化巨头幻方量化的子公司◈ღ◈。在硅谷◈ღ◈,DeepSeek则被称作“来自东方的神秘力量”◈ღ◈。

  对于任何一个想要在大模型赛道上冒头的新人而言◈ღ◈,OpenAI GPT-4o人工智慧◈ღ◈,◈ღ◈、Meta Llama-3.1-405B等成名许久的前辈都是需要挑战的对象◈ღ◈,DeepSeek-V3能够快速引爆全球科技圈关注◈ღ◈,正是得益于其不输前辈的性能◈ღ◈。

  ·数学◈ღ◈:在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上◈ღ◈,DeepSeek-V3 大幅超过了所有开源闭源模型◈ღ◈。

  非常有意思的是DeepSeek-V3虽然拥有高达6710亿的参数量◈ღ◈,但每次推理仅激活370亿参数◈ღ◈,这种设计使得它在保持高性能的同时◈ღ◈,也具备了高效性◈ღ◈。这一特点在全球范围内都极为罕见◈ღ◈,使得DeepSeek-V3一经发布◈ღ◈,便受到了技术社区的高度关注◈ღ◈。

  DeepSeek-V3采用了混合专家(MoE)架构◈ღ◈,这是一种机器学习架构◈ღ◈,通过组合多个专家模型◈ღ◈,在处理复杂任务时能够显著提升效率和准确度◈ღ◈。DeepSeek-V3的MoE架构包含256个专家◈ღ◈,每次计算时动态选择前8个最相关的专家参与◈ღ◈,这种设计既提高了计算效率凯发国际K8官网◈ღ◈。◈ღ◈,又确保了模型的准确性◈ღ◈。

  与此同时◈ღ◈,DeepSeek-V3采用了无辅助损失的负载平衡策略◈ღ◈,并设定了多token预测训练目标◈ღ◈,提高了数据效率和模型的生成速度◈ღ◈,使其生成吐字速度从20TPS大幅提升至60TPS◈ღ◈,相比上代实现了3倍的提升凯发app手机版下载◈ღ◈。其预训练数据达到了14.8万亿◈ღ◈,并且在数据处理流程上进行了改进◈ღ◈,进一步提升了数据质量和模型性能◈ღ◈。

  此外凯发k8◈ღ◈,DeepSeek-V3还采用了创新的知识蒸馏方法◈ღ◈,将推理能力迁移到标准LLM中◈ღ◈,同时保留输出风格和长度控制◈ღ◈,这种技术不仅提高了模型的推理性能◈ღ◈,还使得模型在应用上更加灵活◈ღ◈。

  单看性能◈ღ◈,DeepSeek-V3作为大模型赛道“新人”◈ღ◈,其上演“长江后浪推前浪”的戏码并没啥问题◈ღ◈,事实上◈ღ◈,真正让DeepSeek-V3刷爆科技圈的也并非性能凯发天生赢家一触即发◈ღ◈,而是成本◈ღ◈!

  深度求索使用英伟达H800 GPU在短短两个月内就训练出了DeepSeek-V3◈ღ◈,仅花费了约558万美元◈ღ◈。其训练费用相比GPT-4等大模型要少得多◈ღ◈,据外媒估计◈ღ◈,Meta的大模型Llama-3.1的训练投资超过了5亿美元◈ღ◈。

  这意味着DeepSeek-V3拥有极高的性价比◈ღ◈,具体到GPU小时上的话◈ღ◈,DeepSeek-V3训练仅需266.4万H800 GPU小时◈ღ◈,加上上下文扩展与后训练◈ღ◈,总计也不过278.8万GPU小时◈ღ◈。与之对比◈ღ◈,Llama3-405B的训练数据则高达3080万H100 GPU小时凯发app手机版下载◈ღ◈,DeepSeek-V3的训练成本优势可见一斑◈ღ◈。这使得更多的企业和开发者能够承担起使用这一模型的成本◈ღ◈,进一步推动了AI技术的普及和应用◈ღ◈。

  尤其是因为美国的出口管制限制◈ღ◈,DeepSeek-V3无法使用最顶尖的NVIDIA GPU集群◈ღ◈,但开发者们通过优化训练方法◈ღ◈,在2048个带宽缩减版NVIDIA H800 GPU集群上实现了同样的效果◈ღ◈。这种创新不仅展示了中国团队的技术实力◈ღ◈,也打破了国际科技巨头对高端硬件资源的垄断◈ღ◈。

  OpenAI创始成员Karpathy甚至对此称赞道◈ღ◈:“DeepSeek-V3让在有限算力预算上进行模型预训练这件事变得容易◈ღ◈。DeepSeek-V3看起来比Llama-3-405B更强◈ღ◈,训练消耗的算力却仅为后者的1/11◈ღ◈。”

  目前◈ღ◈,DeepSeek-V3正式定价为每百万输入tokens 0.5元(缓存命中)/2元(未命中)◈ღ◈,输出tokens每百万8元◈ღ◈。这一价格远低于市场上其他大型语言模型的API价格◈ღ◈,如Claude 3.5 Sonnet的输入价格为3美元/百万◈ღ◈,输出价格为15美元/百万◈ღ◈。DeepSeek-V3的优惠价格使得更多用户能够负担得起使用大型语言模型的费用◈ღ◈。

  为了回馈用户北山惠理◈ღ◈,DeepSeek-V3还推出了45天的限时优惠活动◈ღ◈。在优惠期间凯发app手机版下载◈ღ◈,API使用费最高直降80%◈ღ◈,即每百万输入tokens 0.1元(缓存命中)/1元(未命中)◈ღ◈,输出tokens每百万仅2元◈ღ◈。这一活动进一步降低了用户的使用成本◈ღ◈,使得更多用户能够体验到DeepSeek-V3的强大功能◈ღ◈。

  2024年5月6日◈ღ◈,幻方旗下深度求索(Deepseek)发布最新MoE模型DeepSeek-V2,并将模型的 API定价为:每百万tokens输入 1元◈ღ◈、输出2元(32K 上下文)◈ღ◈,价格仅为 GPT-4-Turbo 的近百分之一◈ღ◈,刷新了大模型 API 的低价记录北山惠理◈ღ◈。随后◈ღ◈,部分国内大模型初创公司◈ღ◈、互联网厂商◈ღ◈、科技公司等陆续宣布模型 AP 降价◈ღ◈,有些甚至将 API 免费提供凯发app手机版下载◈ღ◈。

  技术上看◈ღ◈,确实能够通过优化 Transformer 架构中的各个部件,实现推理成本的降低◈ღ◈。DeepSeek V2 本身就是典型的实践◈ღ◈,其降本逻辑在于◈ღ◈:改进的 MOE 架构◈ღ◈,降低训练成本◈ღ◈;优化的 KV cache 机制◈ღ◈,大幅降低推理成本ChatGPT◈ღ◈,◈ღ◈。

  如果其他国内模型厂商◈ღ◈,同样在底层应用了类似的优化技术◈ღ◈,那么降本就是已经发生的过去式◈ღ◈,DeepSeekV2 在5月的降价或是激发各厂家拿出“技术降本”结果◈ღ◈。字节火山引擎总裁谭待在 5月豆包发布会上也指明◈ღ◈,降价的背后主要原因是技术◈ღ◈,未来还有很多手段继续降低成本北山惠理◈ღ◈,并不亏损◈ღ◈。

  从DeepSeek V2开始◈ღ◈,深度求索就引入MLA多头隐注意力机制◈ღ◈,大幅降低了KV cache的大小◈ღ◈。而DeepSeek-V3对于成本的降低主要可分训练成本和推理成本两个方面◈ღ◈。

  在降低训练成本上◈ღ◈,DeepSeek-V3引入了FP8混合精度训练框架◈ღ◈,首次验证了FP8训练在超大规模模型上的可行性和有效性◈ღ◈。通过使用低精度数据格式进行训练◈ღ◈,加速了训练过程并减少了内存使用◈ღ◈,从而降低了训练成本◈ღ◈,并引入DualPipe双向流水线◈ღ◈,通过重叠前向和后向计算与通信来减少流水线气泡◈ღ◈,提高了训练效率◈ღ◈。高效的跨节点通信内核利用IB和NVLink带宽◈ღ◈,进一步减少了通信开销◈ღ◈。

  而在降低推理成本上◈ღ◈,DeepSeek-V3采用了混合专家模型(MoE)架构◈ღ◈,每个专家模型只处理部分输入◈ღ◈,提高了模型的效率和扩展性凯发k8国际◈ღ◈!◈ღ◈。通过优化MoE架构中的专家负载均衡◈ღ◈,进一步降低了推理成本◈ღ◈。MLA(Multi-Head Latent Attention)机制则通过低秩压缩减少KV缓存◈ღ◈,提高了推理效率凯发app手机版下载◈ღ◈。这种机制减少了推理过程中的计算量◈ღ◈,从而降低了推理成本◈ღ◈。

  此外◈ღ◈,DeepSeek-V3将DeepSeek-R1的推理模式融入其中◈ღ◈,提高了模型的推理性能凯发app手机版下载◈ღ◈,借助提炼和优化推理能力◈ღ◈,进一步降低了推理成本◈ღ◈。

  值得一提的是降价并不是国内“特色”◈ღ◈,OpenAl已经进行了多次降价◈ღ◈。OpenAl的 GPT-3.5 turbo 系列从 23年3月问世以来◈ღ◈,已经经历了三次降价◈ღ◈,最新价格与最初价格相比◈ღ◈,输入价格降低了75%,输出价格降低了 25%,上下文长度提升 4x;GPT-4 系列的 turbo 与 40 版本出现后也在屡次刷新 OpenAl 模型的价格底线 系列价格也在逐渐降低

  在这种情况下◈ღ◈,借 DeepSeek“技术降价”引起的大模型降本浪潮◈ღ◈,通过压低价格吸引应用开发者◈ღ◈,或是培养自身开发者生态的重要举措◈ღ◈。开发者生态的繁荣◈ღ◈,是形成“数据和场景→模型迭代→模型性能提升→更多开发者→更多数据”正向反馈的重要基础◈ღ◈,短期牺牲部分成本◈ღ◈,长期看或仍然划算◈ღ◈。

  5月凯发app手机版下载◈ღ◈,0penAl发布新的旗舰模型GPT-40:实现跨模态即时响应◈ღ◈,相比GPT-4 Turbo,刷新SOTA实现性能飞跃◈ღ◈。同月◈ღ◈,Google发布Gemini1.5 Pro进阶版北山惠理◈ღ◈,实现200万tokens上下文◈ღ◈,具备更强大的推理和理解能力◈ღ◈。6月◈ღ◈,Antropic发布Claude 3.5 Sonnet,具备更强的代码和视觉能力◈ღ◈,基准测试结果全方位碾压Gemini 1.5 Pro和Llama-400b,大部分优于 GPT-4o◈ღ◈,一定程度上暂时代表着当前大模型性能最高水平◈ღ◈。

  整体比较而言◈ღ◈,国内大模型与GPT-4(官网)尚存在明显差距◈ღ◈,但个别能力上已展现出优势◈ღ◈,尤其是在长文本理解和应用上◈ღ◈,国内长文本能力赶超了部分国外大模型◈ღ◈。

  抢占长文本这样的细分赛道外北山惠理◈ღ◈,降价抢占API调用量◈ღ◈,撬动大模型“飞轮迭代”也成为国内大模型企业崛起的关键◈ღ◈。随着技术进步和市场竞争◈ღ◈,大模型训练&推理成本降低◈ღ◈,国内大模型厂商纷纷降价◈ღ◈,以吸引用户和提高市场份额◈ღ◈。这里要提一句的是◈ღ◈,降价不等于恶性竟争和模型缺陷◈ღ◈,更多的是在技术支持下商业逻辑的打磨与模型能力的完善◈ღ◈,与其是DeepSeek“技术降价”◈ღ◈,更成为国内大模型企业崛起的关键◈ღ◈。

  此次DeepSeek-V3的推出被视为中国AI技术从“追赶”到“领先”的转折点◈ღ◈。它不仅在技术上实现了对国际顶尖模型的超越◈ღ◈,还通过低成本和高性能的商业模式◈ღ◈,为全球AI应用的推广提供了新的路径◈ღ◈。未来◈ღ◈,随着技术的进一步优化和硬件成本的降低◈ღ◈,DeepSeek-V3有望在教育北山惠理◈ღ◈、医疗◈ღ◈、金融等多个领域发挥更大的作用◈ღ◈。

微信公众号

凯发k8国际首页登录科技

微信号:UnionScience

扫描关注,更多最新动态



凯发k8国际首页登录 | 凯发k8国际首页登录 | 凯发k8国际首页登录 | 凯发k8国际首页登录 | 凯发k8国际首页登录 | 网站地图 | 网站地图_m |

0871-63302133 63302233

昆明市盘龙区新兴路霖岚国际凯发k8国际首页登录

http://www.hbzfgc.com

版权所有 © 2013-2023 凯发k8国际首页登录科技集团股份有限公司 All Rights Reserved 滇ICP备09007384号-1

分享