中国新AI大模型为何火爆全网?人工智能领域专家解读

近日,一个名为DeepSeek(深度求索)的中国AI初创公司成为国内外人工智能(AI)大模型领域热议话题。在不到30天的时间里,DeepSeek先后发布了DeepSeek-V3和DeepSeek-R1两款大模型,其成本与动辄数亿甚至上百亿美元的国外大模型项目相比堪称低廉,而性能与国外顶尖大模型相当。同时,DeepSeek与外国大模型巨头闭源的路径不同,采用开源模式。中国这家公司的发展模式与成果让硅谷高度关注,多家西方主流媒体纷纷发文感叹“中国AI模型震惊硅谷”,甚至引发了国内外多家知名厂商与机构连夜尝试复现DeepSeek成果的“热潮”。DeepSeek的发展具有哪些特点?是否对国产大模型的发展路径以及创新思路带来一些启示?《环球时报》记者26日采访了多位人工智能领域的专家。

【环球时报记者 刘扬 环球时报特约记者 任重】近日,一个名为DeepSeek(深度求索)的中国AI初创公司成为国内外人工智能(AI)大模型领域热议话题。在不到30天的时间里,DeepSeek先后发布了DeepSeek-V3和DeepSeek-R1两款大模型,其成本与动辄数亿甚至上百亿美元的国外大模型项目相比堪称低廉,而性能与国外顶尖大模型相当。同时,DeepSeek与外国大模型巨头闭源的路径不同,采用开源模式。中国这家公司的发展模式与成果让硅谷高度关注,多家西方主流媒体纷纷发文感叹“中国AI模型震惊硅谷”,甚至引发了国内外多家知名厂商与机构连夜尝试复现DeepSeek成果的“热潮”。DeepSeek的发展具有哪些特点?是否对国产大模型的发展路径以及创新思路带来一些启示?《环球时报》记者26日采访了多位人工智能领域的专家。

“OpenAI o1经济实惠且开放的竞争对手”

DeepSeek公司本月20日发布大模型R1,并表示“在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版”,引发外媒特别是美国媒体高度关注这家中国公司及其最新大模型成果。

“中国便宜、开放的人工智能模型 DeepSeek让科学家兴奋不已。”《自然》杂志24日以此为题称,中国研制的大语言模型DeepSeek-R1令科学家们兴奋不已,它被认为是OpenAI o1等“推理”模型的经济实惠且开放的竞争对手。

《纽约时报》24日以“中国人工智能初创企业DeepSeek如何与硅谷巨头竞争”为题报道称,能做到上述成绩本已是一个里程碑,但DeepSeek-V3大模型背后的团队描述了一个更大的进步。他们在训练该系统时只用了先进人工智能公司所用的高度专业化计算机芯片的一小部分。中国工程师称,他们只花了约600万美元以及约2000个英伟达专用芯片就完成了新模型的训练,无论资金以及芯片使用规模都远低于世界领先的人工智能公司。

“这不是中国追赶美国的问题,而是开源追赶闭源的问题”

DeepSeek备受关注,除了性价比超高,还有另一个原因:开源。连日来,网络上已经出现了一波复现DeepSeek的热潮。加州大学伯克利分校、香港科技大学、知名人工智能公司HuggingFace等纷纷成功复现,只用强化学习,没有监督微调,甚至只用几十美元的成本就能完成复现。

美国红迪网25日称,中国DeepSeek的模型是开源的,这是令人兴奋的真正原因。基本上,他们将制造这些东西的知识免费提供给全世界,确保没有人能够真正垄断它。中国公司基本上与美国公司的做法完全相反。你能看到OpenAI、Anthropic或谷歌开源任何强大的模型吗?到目前为止,我们从他们那里得到的只是皮毛。Meta是唯一一家对开源大模型做出重大贡献的西方大公司,但他们将来可能不会开源其最好的模型。被誉为“深度学习三巨头”之一的Yann LeCun(杨立昆)在社交平台X上表示,这不是中国追赶美国的问题,而是开源追赶闭源的问题。

北京邮电大学人机交互与认知工程实验室主任刘伟在接受《环球时报》记者采访时表示,大模型三大核心要素是数据、算法、算力,Deepseek使用较少的数据、较少的算力,通过算法的优化实现了与国外知名大模型等效甚至更优的效果,这是非常值得肯定的。同时还要看到它是开源的,可以供全球希望使用这一大模型的用户来使用和复现。

清华大学新闻学院、人工智能学院教授沈阳26日对《环球时报》记者表示,DeepSeek的大模型是全球开源大模型当中相当优秀的一款,是混合使用多种先进技术实现超越传统预训练技术的创新突破。他结合自身使用的感受谈了这款大模型的几个优点。一是它把目前提升AI大模型能力的方法进行了工程上的微创新组合。二是DeepSeek公布了相关论文,整个过程可以让大家去复现,这就是开源的力量。三是DeepSeek的推理过程,有自身的创新。沈阳作为AI领域的研究者,使用AI超过3万次,他认为,DeepSeek跟美国的AI相比,还有很多中国元素在里面,如中国网络当中的一些热词。

提升推理能力

对于Deepseek的发展模式为国内大模型发展以及创新提供了怎样的重要启示,刘伟认为,“创新不是规划出来的,需要市场、专业机构通过长时间的研究来另辟蹊径,尤其是一些长期关注垂直领域的商业公司可以通过对技术路径的反思、对市场发展的嗅觉,来找到更好的创新点。OpenAI最初的发展过程也是这样,并不是美国官方与科技巨头砸重金规划出来的。”

日前,OpenAI、软银等公司公布了“星际之门”计划,要在4年中砸5000亿美元来加速美国人工智能的发展。刘伟强调,这种集中人力、财力、物力,再给予政策倾斜的发展路径,在未来研究方向与研究结果方面都存在一定的不确定性。“还是要鼓励国内更多商业公司、科研院所聚焦自身的研究领域,找到适合自己的创新与发展路径。”

沈阳表示,在AI发展历史中,新的突破往往是由不显眼的工程创新与科学探索共同驱动的。这种趋势在DeepSeek的成果中得到了深刻体现,它不仅突破了传统的训练方式,也为推理能力的提升带来了全新的视角。“尽管它的成就尚处于一个阶段性水平,但其工程贡献和理论创新已经为未来的AI发展奠定了重要基础。”沈阳认为,DeepSeek团队在基础模型预训练方面的贡献,不仅是在技术层面上的突破,更在于其工程方法的精细与高效。DeepSeek的这种工程创新,标志着AI模型训练的一个全新阶段,这不仅降低了开发成本,也为其他公司提供了可借鉴的路径。同时,DeepSeek的核心创新还体现在推理能力的提升上,尤其是通过相关算法创新来推动模型的自然推理能力,证明了AI领域的一种潜力――无须大量昂贵的思维链标注,模型依然能够涌现出推理能力。

沈阳认为,DeepSeek的成功也让我们看到了未来AI产业的发展方向:更多的开源创新、硬件与软件的深度协同,以及对模型开发成本与推理能力的不断优化。同时,我们也必须看到,DeepSeek虽然取得了显著的阶段性成果,要想在未来发展道路上实现进一步突破,仍然需要面对许多深层次的挑战,例如需要更多的原创性训练数据和算法创新。

来源:飞象网
免责声明:本文内容来源于第三方或整理自互联网,本站仅提供展示,不拥有所有权,不代表本站观点立场,也不构成任何其他建议,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容, 请及时联系我们进行处理。

相关推荐

  • 2025款小鹏G6和G9发布:配置绝杀!全系标配5C超充AI电池+图灵AI智驾

    3月13日,小鹏汽车召开春季发布会,正式推出2025款小鹏G6及G9两款车型。作为品牌十年发展历程中的重要节点,两款新车均进行了全面升级,搭载行业领先的5C超充AI电池与图灵AI智驾系统,并以更具竞争力的价格布局新能源车市场。

    2025-03-15
  • 新夸克告别搜索 升级为一个无边界的“AI超级框”

    3月13日消息(报道:李楠)今日,阿里巴巴宣布推出AI旗舰应用——新夸克。新夸克基于阿里通义领先的推理及多模态大模型,全面升级为一个无边界的“AI超级框”,为2亿用户带来全新体验。阿里巴巴表示,未来通义系列模型的最新成果都将第一时间接入夸克。 新夸克将告别传统搜索,升级为一个All in One的“AI超级框”,...

    2025-03-13
  • AI与5.5G共振,一场技术与商业的“双向奔赴”

    在2025世界移动通信大会(MWC2025)上,AI与移动网络的深度融合成为行业关注的焦点议题。两大技术浪潮正在形成共振效应。一方面,以DeepSeek为代表的开源大模型持续降低AI应用门槛,推动技术普惠化进程;另一方面,5G网络向5G-Advanced的演进构建起超大带宽、超低时延的智能连接基座。这种AI与通信技术的深度融合正在重构产业生态,催生全新的价值增长点。

    2025-03-13
  • 多家海外AI平台接入阿里千问QwQ-32B

    3月13日消息(报道:李楠)自3月6日发布以来,通义千问QwQ-32B稳居全球最大AI开源社区HuggingFace趋势榜榜首,成为当前最受欢迎的开源大模型之一,多家海外AI平台宣布接入。AI平台SambaNova Systems全面支持QwQ-32B推理,并在输出速度上达到最高水平。SGlang、Ollama、...

    2025-03-13
  • 成功抢注“建审千询”大模型商标 中国移动打造国内首个工程审计领域垂直大模型

    中国移动以“九天”基座大模型为基础,打造“建审千询”垂直领域大模型,专注于解决建设项目审计业务流程长、业务种类多、信息化程度低等问题。目前,“建审千询”商标已完成注册,成为国内首个聚焦工程审计领域的垂直大模型。

    2025-03-13
  • 蚂蚁医疗大模型拿下MedBench测评“双料”冠军

    3月12日消息(报道:李楠)近日,国内权威医疗大模型评测平台MedBench在官网更新了榜单。多个医疗AI产品及研究团队入榜,其中蚂蚁AI健康管家团队研发的蚂蚁医疗大模型以评测榜单97.5、自测榜单98.2的高分再度夺得双料冠军。 (MedBench评测榜单截图) (MedBench自测榜单截图) MedBenc...

    2025-03-12
  • 技术渗透带来的新型欺诈:AI换脸/语音克隆能不能治?

    当一段视频通话中的“领导”以急事为由要求转账,当社交媒体上突然出现“明星代言”的虚假广告,当父母收到“子女”声泪俱下的求助语音……这些看似荒诞的场景,正随着AI换脸与语音克隆技术的普及,成为新型犯罪的温床。技术的光影之下,人性的贪婪与法律的滞后交织成一张复杂的网,既时刻威胁着个体的权益,同时也拷问着社会治理的智慧。

    2025-03-12
  • 焕然一新!通义App重塑产品交互,打造实用、贴心个人AI助手

    3月10日消息(报道:李楠)今日,通义App全新升级,上线超级智能体,融入阿里最新推理模型通义千问QwQ-32B强大能力。基于阿里多个先进大模型加持,通义用焕然一新的面貌,为用户打造实用、贴心的个人AI助手。 通义App用全新产品理念重塑产品交互,以超级智能体作为交互中枢。用户在通义首页能问、能聊,通义超级智能体...

    2025-03-10
  • 聚焦315|诈骗升级别慌!手机里的“AI保镖”已就位

    只需一张静态照片,诈骗分子便可通过深度合成技术生成逼真视频,甚至克隆声音,冒充亲友、领导或明星实施诈骗。今年全国两会,“靳东两会建议AI换脸立法”登上热搜;雷军则在其议案中提到,“AI换脸拟声”滥用已成为违法侵权的重灾区。随着AI技术的深度应用,所带来的安全挑战也日益严峻。

    2025-03-10
  • GSMA移动AI社区正式成立,产业共筑移动AI新未来

    【巴塞罗那】2025年3月3日-世界移动通信大会(MWC 2025)开展首日,在GSMA Connect 5G Summit旗舰峰会上,GSMA协同产业组织GTI,及多位领先运营商、设备商和产业伙伴代表,宣布正式发起GSMA Mobile AI Community Group,这不仅标志着移动AI成为产业共识,也标志着移动AI产业合作开启全新篇章。

    2025-03-09