文 | 半导体产业纵横
近日,念念必诸多用户王人怀揣着这么的狐疑:我的手机为何频频推送对于 DeepSeek 的资讯?这 DeepSeek 究竟是什么?它又为何能在问世之际,就激发如斯热烈的眷注与颤动?
DeepSeek,全称杭州深度求索东说念主工智能基础本事商榷有限公司,其发源于一家中国的对冲基金公司 High-Flyer。2023 年 5 月 High-Flyer 剥离出一个寥寂实体,也便是 DeepSeek。这是一家英敢于打造高性能、低资本的 AI 模子。它的指标是让 AI 本事愈加普惠,让更多东说念主能够用上强劲的 AI 器具。
DeepSeek-V3 与 DeepSeek-R1 的中枢各异
客岁 12 月 26 日,DeepSeek AI 崇敬发布了其最新的大型话语模子 DeepSeek-V3。这款开源模子接管了高达 6710 亿参数的 MoE 架构,每秒能够处理 60 个 token,比 V2 快了 3 倍。还是发布,就在 AI 边界引起了山地风云。
时隔不及一个月,在本年 1 月 20 日,深度求索又崇敬发布推理大模子 DeepSeek-R1。DeepSeek-R1 的发布,再次震撼业界!
1 月 27 日,DeepSeek 应用登顶苹果中国区和好意思国区应用商店免费 App 下载名次榜。1 月 31 日,英伟达、亚马逊和微软这三家好意思国科技巨头,在兼并天文书接入 DeepSeek-R1。
对于 DeepSeek-V3 与 DeepSeek-R1-Distill 蒸馏模子的区别:
DeepSeek-V3
合乎复杂任务处理和高精度场景,如长文档分析、多模态推理、科研狡计等。
支合手千卡级纯属,称心超大边界集群漫衍式纯属需求。
DeepSeek-R1-Distill 蒸馏模子
合乎轻量级部署和资源受限场景,如旯旮开辟推理、中小企业快速考证 AI 应用。
在显存和算力条件上更为天真,适配初学级硬件。

开始:Gitee AI
近日,硅谷顶尖风险投资家、a16Z 辘集独创东说念主 Marc Andreessen 发文援用 SensorTower 数据:当今 DeepSeek 日活用户数已经达到了 ChatGPT 的 23%,何况应用逐日下载量接近 500 万。
2 月 5 日,京东云文书崇敬上线 DeepSeek-R1 和 DeepSeek-V3 模子,支合手公有云在线部署、专混特有化实例部署两种模式。前几日,阿里云、百度智能云、华为云、腾讯云、火山引擎、天翼云已接入了 DeepSeek 模子。国际的亚马逊 AWS、微软 Azure 等云巨头相似官宣支合手。
那么,DeepSeek 究竟所以何种非凡魔力,赢得了纷乱用户的深爱与喜爱呢?
DeepSeek 的两大上风
市集热捧的产物,常常有个权贵共性:能帮用户降本增效。这,相似是 DeepSeek 的上风处所。
最初在低资本与高遵循方面,DeepSeek-V3 的纯属资本仅为 557.6 万好意思元(约为 GPT-4 的二十分之一),却能在逻辑推理、代码生成等任务中达到与 GPT-4o、Claude-3.5-Sonnet 左近的性能,以致卓著部分开源模子(如 Llama-3.1-405B)。其本事中枢在于算法优化(如 MoE 架构、动态学习率退换器)和数据效率进步,而非依赖算力堆叠。
算作对比,GPT-5 一次为期 6 个月的纯属仅狡计资本就高达约 5 亿好意思元。
其次,开源与天真部署亦然 DeepSeek 的隆起上风之一。DeepSeek 选定将模子权重开源,并公开纯属细节,这为全球的 AI 商榷者掀开了一扇通往模子里面的大门,让他们能够深入了解模子的纯属历程、所接管的算法以及碰到的问题和惩办有野心。
360 集团独创东说念主周鸿祎指出,DeepSeek 委果践行了怒放的精神。与 OpenAI 等关闭模式平台比拟,DeepSeek 允许开发者讹诈其开源模子进行本事挖掘和立异,这是对本事分享理念的有劲支合手。OpenAI 诚然以"开源"自居,但跟着营业化的鼓舞,越来越多地选定阻塞式策略,这与其创立初志以火去蛾中。
此外,周鸿祎极端提到 DeepSeek 的模子蒸馏本事,他合计这是一种极具前瞻性的推行。在他看来,DeepSeek 对模子蒸馏的怒放格调,展示了其自信与忘我。相较之下,OpenAI 对用户蒸馏其模子的截至,败潜入其对竞争敌手的抹杀和对自己上风的防御。
DeepSeek 所需的 GPU,主要开始于英伟达
早期对 AI 本事和硬件基础关节的政策投资,为 DeepSeek 的到手奠定了基础。
据 SemiAnalysis 评估,DeepSeek 领有约莫 50,000 个 Hopper 架构的 GPU,其中包括 10,000 个 H800 和 10,000 个 H100 型号。此外,他们还订购了无数的 H20 型号 GPU,这些 GPU 专为中国市集联想。尽管 H800 与 H100 具有换取的狡计才气,但其收集带宽较低。H20 是现时唯独对中国模子提供商可用的型号。这些 GPU 不仅用于 DeepSeek,也工作于 High-Flyer,地舆上分散部署,支合手往复、推理、纯属和商榷等多种任务。

至于 DeepSeek 怎样赢得如斯多数目的 Hopper GPU。
早在 2021 年 High-Flyer 就看好 AI 的发展后劲并已然投资购买了 10,000 个 A100 GPU,用于大边界模子纯属实验。这项政策决策自后被讲明是终点到手的,为公司带来了权贵的竞争上风。
在 1 月 25 日新年前,AMD 就官宣将 DeepSeek-V3 模子集成到了 Instinct MI300X GPU 上。
随后在 1 月 31 日,AI 芯片龙头英伟达也官宣其 NVIDIA NIM 微工作预览版对于 DeepSeek-R1 模子的支合手。NIM 微工作基于 HGX H200 系统,每秒能够处理 3872 个 tokens。开发者们不错调用 API 进行测试和历练,该 API 后续会算作英伟达 AI 企业软件平台的一部分提供。
同日,英特尔文书 DeepSeek 能够在搭载酷睿处理器的 AI PC 上离线使用。在酷睿 Ultra 200H(Arrow Lake H)平台上,DeepSeek-R1-1.5B 模子能够土产货离线脱手,作念翻译、作念会议纪要、进行文档撰写等任务。
要知说念 DeepSeek 在算力芯片受限的不利成分下,达到 OpenAI 等顶级模子的水平,是国内 AI 生态级的突破。如今,跟着 DeepSeek 这类模子的发展,对 GPU 需求合手续攀升。国产 GPU 厂商也机敏捕捉到这一机遇,正在积极进行适配责任。他们深知,适配到手不仅能助力 DeepSeek 等模子更好地发展,也能为自己掀开更广漠的市集空间,进步国产 GPU 在 AI 边界的影响力。
11 大国产 AI 芯片公司,文书适配 DeepSeek
仅在 2 月 1 日至 2 月 7 日这短短 7 天内,就有 11 家国产 AI 芯片公司文书完成对 DeepSeek 的适配 。
DeepSeek 系列新模子崇敬上线昇腾社区
2 月 1 日,华为云文书与硅基流动辘集首发并上线基于华为云昇腾云工作的 DeepSeek R1/V3 推理工作。获利于自研推理加速引擎加合手,该工作支合手部署的 DeepSeek 模子可赢得合手平全球高端 GPU 部署模子的效率。
2 月 5 日,华为文书,DeepSeek-R1、DeepSeek-V3、DeepSeek-V2、Janus-Pro 于 2 月 4 日崇敬上线昇腾社区,支合手一键获取 DeepSeek 系列模子,支合手昇腾硬件平台上开箱即用,推理快速部署,带来更快、更高效、更浮浅的 AI 开发和应用体验。

摩尔线程杀青对 DeepSeek 蒸馏模子推理工作的高效部署
2 月 4 日,摩尔线程发文称已快速杀青对 DeepSeek 蒸馏模子推理工作的高效部署,旨在赋能更多开发者基于摩尔线程全功能 GPU 进行 AI 应用立异。

此外,用户也不错基于 MTT S80 和 MTT S4000 进行 DeepSeek-R1 蒸馏模子的推理部署。
通过 DeepSeek 提供的蒸馏模子,能够将大边界模子的才气移动至更小、更高效的版块,在国产 GPU 上杀青高性能推理。摩尔线程基于自研全功能 GPU,通过开源与自研双引擎有野心,快速杀青了对 DeepSeek 蒸馏模子的推理工作部署,为用户和社区提供高质地工作。
DeepSeek V3 和 R1 模子完成海光 DCU 适配并崇敬上线
2 月 4 日晚间,海光信息文书公司本事团队到手完成 DeepSeek V3 和 R1 模子与海光 DCU(深度狡计单位)的适配,并崇敬上线。

DeepSeek V3 和 R1 模子接管了 Multi-Head Latent Attention(MLA)、DeepSeekMoE、多令牌推测、FP8 羼杂精度纯属等立异本事,权贵进步了模子的纯属效率和推感性能。
DCU 是海光信息推出的高性能 GPGPU 架构 AI 加速卡,英敢于为行业客户提供自主可控的全精度通用 AI 加速狡计惩办有野心。凭借超卓的算力性能和完备的软件生态,DCU 已在科教、金融、医疗、政务、智算中心等多个边界杀青边界化应用。
跟着海光等专注于 GPU 研发的公司纷繁示意已完成对 DeepSeek V3 的适配。从这一口头来看,DeepSeek 模子在业界豪迈正逐步赢得较高的认同度与通用性。
那么,海光 DCU 的哪些硬件特质和架构联想使得它能够很好地支合手 DeepSeek V3 和 R1 模子的高效脱手?
有业内东说念主士示意,海光 DCU 接管了 GPGPU 架构,从而保证在面对新式应用的时分具备极好的兼容性与适配性;同期 DCU 配套的软件栈也经过了多年的蓄积,相应软件生态纯属丰富,在与新模子、应用适配的时分具备完备的软件扶持才气。以上共同保险了对于 DeepSeek V3/R1 为代表的新模子能够提供高效的兼容与扶持才气。
值得驻守的是,海光本次适配并没灵验到额外的中间层器具,依托现存 DCU 软件栈就不错杀青快速的扶持。这主要获利于 DCU 的 GPGPU 架构通用性和自己对主流生态的雅致兼容,从而大幅进步了大模子等东说念主工智能应用的部署效率。
天数智芯辘集 Gitee AI 崇敬上线 DeepSeek R1 模子工作
2 月 4 日,天数智芯与 Gitee AI 辘集发布音书,在两边的高效合营下,仅用时一天,便到手完成了与 DeepSeek R1 的适配责任,何况已崇敬上线多款大模子工作,其中包括 DeepSeek R1-Distill-Qwen-1.5B、DeepSeek R1-Distill-Qwen-7B、DeepSeek R1-Distill-Qwen-14B 等。

Gitee AI 与沐曦联袂首发 DeepSeek R1 系列千问蒸馏模子
2 月 2 日,Gitee AI 崇敬推出了四个轻量级版块的 DeepSeek 模子,分歧为
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-14B 和 DeepSeek-R1-Distill-Qwen-32B。尤为引东说念主把稳的是,这些模子均部署在国产沐曦曦云 GPU 上。
上文曾提到,与全尺寸 DeepSeek 模子比拟,较小尺寸的 DeepSeek 蒸馏版块模子更合乎企业里面实施部署,不错裁汰落地资本。
同期,此次 Deepseek R1 模子 + 沐曦曦云 GPU + Gitee AI 平台,更是杀青了从芯片到平台,从算力到模子宇宙产研发。

随后在 2 月 5 日 Gitee AI 文书再次将 DeepSeek-V3 满血版(671B)上线到平台上(满血版当今仅供大众体验用途)。这亦然 Gitee AI 继全套千问蒸馏模子上线沐曦 GPU 卡之后的又一大的更新。
壁仞 AI 算力平台上线 DeepSeek R1 蒸馏模子推理工作,支合手云霄体验
2 月 5 日,壁仞科技文书,凭借自主研发的壁砺系列 GPU 产物出色的兼容性能,只用数个小时,就完成对 DeepSeek R1 全系列蒸馏模子的支合手,涵盖从 1.5B 到 70B 各等第参数版块,包括 LLaMA 蒸馏模子和千问蒸馏模子。

当今,壁仞科技已构建起从底层硬件到模子工作的完竣 AI 本事栈,可为中小企业和商榷机构提供"芯片 + 模子"的端到端惩办有野心。
云天励飞 DeepEdge10 已完成 DeepSeek R1 系列模子适配
2 月 5 日,云天励飞文书,其芯片团队完成 DeepEdge10 "算力积木"芯片平台与
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Llama-8B 大模子的适配,不错拜托客户使用。DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-70B 大模子、DeepSeek V3/R1 671B MoE 大模子也在有序适配中。适配完成后,DeepEdge10 芯片平台将在端、边、云全面支合手 DeepSeek 全系列模子。


DeepEdge10 系列芯片是有利针对大模子时期打造的芯片,支合手包括 Transformer 模子、BEV 模子、CV 大模子、LLM 大模子等各样不同架构的主流模子;基于自主可控的先进国产工艺打造,接管非凡的"算力积木"架构,可天真称心不同场景对算力的需求,为大模子推理提供强劲能源。
基于太始 T100 加速卡 2 小时适配 DeepSeek-R1 系列模子
2 月 5 日,太始元碁 Tecorigin 示意,基于通用的异构众核芯片架构和深厚的软件生态蓄积,在太始 T100 加速卡上仅用 2 小时便完成 DeepSeek-R1 系列模子的适配责任,快速上线包括
DeepSeek-R1-Distill-Qwen-7B 在内的多款大模子工作,为东说念主工智能应用的立异发展提供了强有劲的本事扶持和自动可控的算力关节保险。

当今,太始元碁正积极联袂京算、是石科技、神威数智、龙芯中科等合作伙伴,全力打造 DeepSeek 系列模子的云霄推理平台。企业用户只需通过轻佻的操作,即可在云霄快速获取太始 T100 加速卡的强劲推理才气,轻易杀青智能化转型,进步坐褥效率和立异才气,以在热烈的市集竞争中脱颖而出。同期,太始元碁也辘集龙芯中科提供面向政务信创的国密云霄推理平台,以称心信创刚需。
燧原科技杀青宇宙各地智算中心 DeepSeek 的全量推理工作部署
2 月 6 日,燧原科技文书完成对 DeepSeek 全量模子的高效适配,包括 DeepSeek-R1/V3 671B 原生模子、
DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B 等蒸馏模子。总共这个词适配进度中,燧原 AI 加速卡的狡计才气得到充分讹诈,能够快速处理海量数据,同期其褂讪性为模子的合手续优化和大边界部署提供了坚实的基础。
当今,DeepSeek 的全量模子已在庆阳、无锡、成王人等智算中心完成了数万卡的快速部署,将为客户及合作伙伴提供高性能狡计资源,进步模子推理效率,同期裁汰使用门槛,大幅从简硬件资本。

昆仑芯全面适配 DeepSeek
2 月 6 日,昆仑芯科技文书,在 DeepSeek-V3/R1 上线不久,昆仑芯便率先完周密版块模子适配,这其中包括 DeepSeek MoE 模子偏执蒸馏的 Llama/Qwen 等小边界 dense 模子。
昆仑芯 P800 不错较好的扶持 DeepSeek 系列 MoE 模子大边界纯属任务,全面支合手 MLA、多大众并行等特质,仅需 32 台即可支合手模子全参纯属,高效完成模子合手续纯属和微调。
P800 显存规格优于同类主流 GPU20%-50%,对 MoE 架构愈加友好,且率先支合手 8bit 推理,单机 8 卡即可脱手 671B 模子。正因如斯,昆仑芯相较同类产物愈加易于部署,同期可权贵裁汰脱手资本,轻易完成 DeepSeek-V3/R1 全版块推理任务。
龙芯处理器到手脱手 DeepSeek 大模子
2 月 7 日,龙芯中科文书,日前,龙芯辘集太始元碁等产业伙伴,仅用 2 小时即在太始 T100 加速卡上完成 DeepSeek-R1 系列模子的适配责任,快速上线包含
DeepSeek-R1-Distill-Qwen-7B 在内的多款大模子工作。
此外,接管龙芯 3A6000 处理器的诚迈信创电脑和望龙电脑已杀青土产货部署 DeepSeek,部署后无需依赖云霄工作器,幸免了因收集波动或工作器过载导致的工作中断,可高效完成文档处理、数据分析、骨子创作等多项责任,权贵进步责任效率。
DeepSeek 给国产芯片公司,带来新机会
DeepSeek 的横空出世宛如一颗参加坦然湖面的石子,在行业中激起层层漂泊,为国产芯片公司带来新的发展机会。
最初,跟着大模子应用的随地吐花,对芯片的需求也水长船高。不管是模子纯属时所需的强劲算力,如故推理历程中对低蔓延、高效率的追求,王人为国产芯片公司掀开了新的市集空间。以往,由于不菲的大模子使用资本,好多潜在的应用场景被附近,如今 DeepSeek 突破了这一僵局,国产芯片公司得以凭借自己产物在新兴的细分市集中崭露头角,称心不同业业对于大模子运算的芯片需求。
其次,DeepSeek 大模子与国产 AI 芯片适配的迟缓纯属,是另一个重要机会。此前,国产 AI 芯片在发展历程中,常靠近与主流大模子适配度欠安的问题,这截至了其市集推论与应用拓展。而 DeepSeek 的出现更动了这一场地,它为国产 AI 芯片提供了一个更为契合的适配平台。
当国产 AI 芯片能够与 DeepSeek 大模子雅致适配后,不错加速国产 AI 芯片在国内大模子纯属端和推理端的应用,使得国产芯片在原土市集中赢得更多推行机会,通过握住优化和修订,进步产物质能。
临了,跟着 DeepSeek 与国产芯片的适配,将与其他国产软硬件厂商酿成协同效应,构建起完竣的生态闭环,这将推动国产芯片在东说念主工智能边界的应用尊龙体育网,加速国产芯片生态体系的缔造。