物理测试暴击AI圈,DeepSeek R1稳超o1、Claude,我们已进入RL黄金时代

DeepSeek R1 真是太厉害了!

DeepSeek R1 真是太厉害了!

最近,‘神秘的东方力量’DeepSeek 正在‘硬控’硅谷。

我让 R1 详细解释勾股定理。这一切都是 AI 在不到 30 秒时间里一次性完成的,没出任何错。简单来说,its over.

在国内外 AI 圈,普通网友发现了神奇的强大新 AI(还开源),学界专家纷纷喊出‘要奋起直追’,还有小道消息称海外的 AI 公司已经如临大敌。

就说这个本周刚发布的 DeepSeek R1,它没有任何监督训练的纯强化学习路线令人震撼,从去年 12 月 Deepseek-v3 基座发展到如今堪比 OpenAI o1 的思维链能力,似乎是很快达成的事。

但在 AI 社区热火朝天的读技术报告、对比实测之余,人们还是对 R1 有所怀疑:它除了能跑赢一堆 Benchmark 以外,真的能领先吗?

能自建模拟‘物理规律’

你不信?来让大模型玩玩弹球?

最近几天,AI 社区的一些人开始沉迷一项测试 ―― 测试不同的 AI 大模型(尤其是所谓的推理模型)来处理一类问题:‘编写一个 Python 脚本,让一个黄色球在某个形状内弹跳。让该形状缓慢旋转,并确保球停留在形状内。’

一些模型在这项‘旋转球形’基准测试中的表现优于其他模型。据 CoreView CTO Ivan Fioravanti 称,国内人工智能实验室 DeepSeek 的开源大模型 R1 完胜 OpenAI 的 o1 pro 模式,后者作为 OpenAI ChatGPT Pro 计划的一部分,每月收费 200 美元。

左边是 OpenAI o1,右边是 DeepSeek R1。如上所述,这里的 Prompt 是:‘write a python script for a bouncing yellow ball within a square, make sure to handle collision detection properly. make the square slowly rotate. implement it in python. make sure ball stays within the square.’

根据另一位网友在 X 上的说法,Anthropic 的 Claude 3.5 Sonnet 和谷歌的 Gemini 1.5 Pro 模型对物理原理判断错误,导致球偏离了形状。也有用户报告称,谷歌最新的 Gemini 2.0 Flash Thinking Experimental,以及相对更旧的 OpenAI GPT-4o 都一次性通过了评估。

但这里面也是能分出高下的:

在这个推文底下的网友表示:o1 的能力原本很好,在 OpenAI 优化速度过后就变弱了,即使是每月 200 美元的会员版也一样。

模拟弹跳球是一个经典的编程挑战。精确的模拟结合了碰撞检测算法,其算法需要去识别两个物体(例如一个球和一个形状的侧面)何时发生碰撞。编写不当的算法会影响模拟的性能或导致明显的物理错误。

AI 初创公司 Nous Research 的研究员 N8 Programs 表示,他花了大约两个小时从头开始编写一个旋转七边形中的弹跳球。‘必须跟踪多个坐标系,了解每个系统中的碰撞是如何进行的,并从头设计代码以使其具有鲁棒性。’

虽然弹跳球和旋转形状是对编程技能的合理测试,但对于大模型来说还是个新项目,即使是提示中的细微变化也可能产生出不同的结果。所以如果想让它最终成为 AI 大模型基准测试的一部分的话,还需要改进。

无论如何,经过这一波实测之后,我们对大模型之间的能力不同有了观感。

DeepSeek 是新的‘硅谷神话’

DeepSeek 正让大洋彼岸陷入‘恐慌’。

Meta 员工发帖称‘Meta 工程师们正在疯狂地分析 DeepSeek,试图从中复制任何可能的东西。’

而 AI 科技初创公司 Scale AI 创始人 Alexandr Wang 也公开表示,中国人工智能公司 DeepSeek 的 AI 大模型性能大致与美国最好的模型相当。

他还认为,过去十年来,美国可能一直在人工智能竞赛中领先于中国,但 DeepSeek 的 AI 大模型发布可能会‘改变一切’。

X 博主 @8teAPi 则认为,DeepSeek 并不是一个‘副业项目’,而是像洛克希德・马丁以前的‘臭鼬工厂’。

所谓‘臭鼬工厂’,就是当初洛克希德・马丁公司(Lockheed Martin)为了研发诸多先进飞行器专门成立的一个高度机密、相对独立的小团队,从事尖端或非常规的技术研究与开发。从 U-2 侦察机、SR-71 黑鸟,到 F-22 猛禽、F-35 闪电 II 战斗机都是从这里走出来的。

后来,这个词逐渐演变成一个通用术语,用来形容在大公司或组织内部设立的‘小而精’、相对独立且自由度更高的创新团队。

他给出的理由有两个:

一方面是 DeepSeek 拥有大量的 GPU,据称有超过一万块,而 Scale AI 的 CEO Alexandr Wang 甚至表示可能达到 5 万块。

另一方面,DeepSeek 只从中国排名前三的大学招聘人才,这意味着 DeepSeek 与阿里巴巴和腾讯具有同等的竞争力。

仅凭这两个事实,就可以看出,显然 DeepSeek 在商业上取得了成功,并且已经足够知名,能够获得这些资源。

至于 DeepSeek 的开发成本,该博主表示,中国科技公司可以获得各种各样的补贴,比如低用电成本和用地。

因此,DeepSeek 非常有可能大部分成本都被‘安置’在核心业务之外的某个账目上,或者以某种数据中心建设补贴的形式存在。甚至除了创始人之外,没人完全清楚所有财务安排。有些协议可能只是‘口头协定’,只靠声誉就能敲定。

不管怎样,有几点是明确的:

这个模型非常出色,与 OpenAI 两个月前发布的版本相当,当然也有可能不如 OpenAI 和 Anthropic 尚未发布的新模型。

从目前来看,研究方向仍主要由美国公司主导,DeepSeek 模型属于对 o1 版本的‘快速跟进’,但 DeepSeek 的研发进度非常迅猛,比预期更快地迎头赶上,他们并没有抄袭或作弊,最多只是逆向工程。

DeepSeek 主要是在培养自己的人才,而不是依赖美国培养的博士,这大大扩展了人才库。

与美国公司相比,DeepSeek 在知识产权许可、隐私、安全、政治等方面受到的约束较少,围绕错误地使用那些不想被训练的数据的担忧也较少。诉讼更少,律师更少,也更少顾虑。

毫无疑问,越来越多的人认为 2025 年将会是决定性的一年。与此同时各家公司都在摩拳擦掌,比如 Meta 就正在建立一个 2GW+ 的数据中心,预计在 2025 年投资 600-650 亿美元,年底拥有超过 130 万块 GPU。

Meta 甚至用一张图表展示了 2 千兆瓦数据中心与纽约曼哈顿的对比。

但现在 DeepSeek 用更低的成本,更少的 GPU 做到了更好,怎能不让人焦虑?

Yann LeCun:要感谢开源

Hyperbolic 的 CTO、联合创始人 Yuchen Jin 发帖表示,在仅 4 天时间里,DeepSeek-R1 向我们证明了 4 个事实:

开源 AI 仅落后于闭源 AI 不到 6 个月

中国正在主导开源 AI 竞赛

我们正进入大语言模型强化学习的黄金时代

蒸馏模型非常强大,我们将在手机上运行高智能 AI

由 DeepSeek 引发的连锁反应仍在继续,比如 OpenAI o3-mini 免费可用、社区中希望能减少关于 AGI/ASI 的模糊讨论以及传闻 Meta 陷入恐慌等。

他认为,现在很难预测最终谁会获胜,但不要忘记后发优势的力量,毕竟我们都知道是 Google 发明了 Transformer,而 OpenAI 解锁了其真正潜力。

此外,图灵奖得主、Meta 首席人工智能科学家 Yann LeCun 也表达了自己的看法。

‘对于那些看到 DeepSeek 的性能就认为“中国正在超越美国的 AI”的人,你理解错了。正确的理解是:开源模型正在超越专有模型。’

LeCun 表示,DeepSeek 之所以这次一鸣惊人,是因为他们从开放研究和开源(如 Meta 的 PyTorch 和 Llama)中获益。DeepSeek 提出了新想法,并在他人工作的基础上构建。因为他们的工作是公开发布和开源的,每个人都可以从中受益,这就是开放研究和开源的力量。

网友们的反思还在继续,在对于新技术发展兴奋的同时,也能感受到一点点忧虑的气氛,毕竟 DeepSeek 们的出现,可能会带来真金白银的影响。

参考内容:

https://x.com/ivanfioravanti/status/1881969391547683031

https://x.com/Aadhithya_D2003/status/1882105009548222953

https://x.com/8teAPi/status/1882836551866204656

https://x.com/Yuchenj_UW/status/1882840436974428362

https://x.com/ylecun/status/1882943244679709130

https://venturebeat.com/ai/tech-leaders-respond-to-the-rapid-rise-of-deepseek/

来源:飞象网
免责声明:本文内容来源于第三方或整理自互联网,本站仅提供展示,不拥有所有权,不代表本站观点立场,也不构成任何其他建议,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容, 请及时联系我们进行处理。

相关推荐

  • 反超DeepSeek-R1,阿里万相登顶Hugging Face榜单

    3月3日消息(报道:李楠)今日,开源社区Hugging Face最新榜单显示,开源仅6天的阿里万相大模型已反超DeepSeek-R1,登顶模型热榜、模型空间榜两大榜单,成为近期全球开源社区最受欢迎的大模型。根据最新数据,万相2.1(Wan2.1)在Hugging Face及魔搭社区的总下载量已超百万,在Githu...

    2025-03-03
  • DeepSeek推动AI平权 国产算力迎来价值重估

    今年以来,深度求索(DeepSeek)概念指数大幅飙升,算力产业链方向涨势尤为迅猛,包括算力租赁(IDC)、云计算、AI算力等指数春节后均飙涨逾40%。

    2025-03-03
  • 接入DeepSeek后,我们还需要“百度一下”

    我们终将抵达出发的地方,并第一次真正认识这里。——T.S.艾略特 在大模型掀起全球智能革命三年后,搜索引擎的边界已被彻底打破,不仅重塑着信息获取的路径,更将人类认知模式推向“提问即创造”的新纪元。这一变革不仅深刻影响了个人与信息的交互方式,更在企业的业务重构中发挥了核心作用,引领了行业的全面升级。 而在搜索领域,今年以...

    2025-02-25
  • DeepSeek爆火,数据产业有哪些利好?

    在当今数字化飞速发展的时代,数据产业正迎来前所未有的变革与机遇。相关统计分析,2020年我国数据产业规模为1万亿元,到2023年已突破2万亿元。预计2024年至2030年间,数据产业将保持20%以上的年均增长率,到2030年产业规模有望达到7.5万亿元。这背后离不开国家政策的驱动和支持,让人意外的是DeepSeek的出现,更是堪称一颗重磅炸弹,为数据产业勾勒出一幅更加向上的新蓝图。

    2025-02-21
  • 不止是接入DeepSeek,百度重新定义深度搜索

    最近,DeepSeek-R1模型,凭借其强大的推理能力,成为大模型圈里最热门的话题之一。作为不少普通人第一次接触的大模型产品,DeepSeek用清晰的思维链(CoT),让生成结果更“有理有据、令人信服”。 然而,DeepSeek有多让人爱,每天仅第一次提供响应的体验就多让人恨。相信不少人已经被“服务器繁忙,请稍后再试”...

    2025-02-21
  • DeepSeek这么好用,为什么手机厂商还要自研大模型?

    DeepSeek狂潮席卷到了手机行业。截至2月18日,华为、荣耀、努比亚、魅族、小米、vivo、OPPO等国内主流手机厂商全部都已接入DeepSeek。

    2025-02-19
  • DeepSeek引发本地AI部署潮,手机RAM慌了吗?

    连续三年,每个新年意识AI突破都成为了科技行业的最热新闻。从ChatGPT到o1,再到今年的DeepSeek。不过与头两年OpenAI公司的ChatGPT不同的是,由于开源的属性,DeepSeek可以在线使用外,也吸引着很多人尝试进行本地化部署,甚至出现了在各大社交分享平台上教程一抓一大把的盛况。

    2025-02-14
  • “非常钦佩DeepSeek取得的成就” 雷军建议大家学会使用AI工具:会大幅度提升工作效率,为生活带来便利

    Copyright © 2024 版权所有 京ICP证110302号京ICP备05049258号-1 京公网安备11010802042906号违法和不良信息举报电话:010-68462438 举报邮

    2025-02-13
  • 中兴通讯AiCube:助力企业高效落地DeepSeek,抢占AI时代先机

    在全球AI技术竞逐的浪潮中,DeepSeek以卓越的性能和极具竞争力的训推成本,成功吸引了业界的广泛关注。这款由中国团队研发的大型AI模型,凭借算法优化大幅降低了训练与推理的综合成本,使得“以较低成本跑出高性能”成为可能,同时也降低了对高端芯片的依赖。

    2025-02-11
  • 映宇宙宣布接入Deepseek:深度赋能微短剧直播等业务,全面拥抱AI技术革新

    2月10日消息(报道:李楠)在人工智能技术加速变革的行业背景下,映宇宙集团宣布已完成与前沿AI大模型Deepseek的全面技术对接,成为业内首批实现多业务线规模化应用的科技企业。 据映宇宙技术研发负责人披露,目前集团已率先完成旗下微短剧制作平台、直播互动系统及社交产品矩阵的技术适配,实现核心业务场景的智能化升级。...

    2025-02-10