明敏 克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

顶级 " 礼遇 "。

一觉醒来,OpenAI 和 Claude 母公司都对 DeepSeek 出手了

据《金融时报》消息,OpenAI 表示已经发现证据,证明 DeepSeek 利用他们的模型进行训练,这涉嫌侵犯知识产权。

具体来说,他们发现了 DeepSeek" 蒸馏 "OpenAI 模型的迹象。即使用更大模型的输出来提高较小模型的性能,从而以较低成本在特定任务上取得类似结果。

微软也开始调查 DeepSeek 是否使用 OpenAI 的 API。

消息一出,最先迎来的是一波嘲讽

纽约大学教授马库斯率先开喷:

OpenAI:我们需要免费用所有艺术家和作家的作品训练模型,这样我们就可以省下钱去起诉 DeepSeek 公然偷我们东西啦!

知名技术媒体 404 Media 创始人及主编 Jason 也直接在文章里贴脸开大,暗讽 OpenAI 只许州官放火。

先容我笑一会儿哈哈哈哈哈哈。真是令人难以置信的讽刺啊,OpenAI 一直以 " 未经授权的方式 " 获取大量数据,也违反了一些组织的条款规定,结果现在他们却在指责自己的做法。

而另一边,Claude 母公司 Anthropic 创始人 Dario Amodei 洋洋洒洒发了一篇长文大谈 DeepSeek。

他表示,说 DeepSeek 构成威胁太夸张了," 也就是我们 7-10 个月前的水准 ",Claude 3.5 Sonnet 在许多内部和外部评估中依旧遥遥领先。

不过为了保持领先,我建议我们是不是得设置更多掣肘?

好家伙,为了围剿 DeepSeek,竞对 OpenAI 和 Anthropic 罕见都罕见联手了。

相比之下,微软的做法就耐人寻味了许多。

就在指控 DeepSeek 涉嫌侵权之后几个小时后,微软的 AI 平台上接入了 DeepSeek 模型

网友:俗话说,否认是接受的第一步。

各方消息汇总来看,微软和 OpenAI 对 DeepSeek 的质疑还处于调查中。

根据微软工作人员的说法,DeepSeek 可能在去年秋天调用了 OpenAI 的 API,这可能导致数据泄露。

按照 OpenAI 的服务条款规定,任何人都可以注册使用 OpenAI 的 API,但是不能使用输出数据训练对 OpenAI 造成竞争威胁的模型。

OpenAI 告诉《金融时报》,他们发现了一些模型蒸馏的证据,他们怀疑这是 DeepSeek 的所作所为。

目前,OpenAI 拒绝进一步置评,也不愿提供证据细节。

那么不妨先来看看,引发争议的模型蒸馏是什么。

它是一种模型压缩技术,通过将一个复杂的、计算开销大的大模型(称为教师模型)的知识 " 蒸馏 " 到一个更小、更高效的模型(称为学生模型)。

这个过程的核心目标是让学生模型在轻量化的同时,尽量保留教师模型的性能。

在诺奖得主、深度学习之父 Hinton 的论文《Distilling the Knowledge in a Neural Network》中指出:

蒸馏对于将知识从集成或从大型高度正则化模型转移到较小的蒸馏模型非常有效。

比如 Together AI 前段时间的工作,就是把 Llama 3 蒸馏到 Mamba,实现推理速度最高提升 1.6 倍,性能还更强。

IBM 对知识蒸馏的文章中也提到,大多数情况下最领先的 LLM 对计算、成本提出太高要求……知识蒸馏已经成为一种重要手段,能将大模型的先进能力移植到更小的(通常是)开源模型中。因此,它已经成为生成式 AI 普惠化的一个重要工具

在行业内,一些开源模型的服务条款允许蒸馏。比如 Llama,DeepSeek 此前也在论文中表示使用了 Llama。

而且关键是,DeepSeek R1 并非只是简单蒸馏模型,OpenAI 首席科学家 Mark Chen 表示:

DeepSeek独立发现了 OpenAI 在实现 o1 过程中所采用的一些核心理念。

同时他也认可了 DeepSeek 在成本控制上的工作,并提到蒸馏技术的趋势,表示 OpenAI 也在积极探索模型压缩和优化技术,降低成本。

所以总结一下,模型蒸馏技术在学术界、工业界都非常普遍且被认可,但是违反 OpenAI 的服务条款。

这河狸吗?不知道。

但问题是,OpenAI自己本身在合规性上也大有问题

(众所周知)OpenAI 训练模型把互联网上的数据扒了个干净,这其中除了免费公开的知识内容外,还包含大量有版权的文章作品。

2023 年 12 月,《纽约 时报》以侵犯知识产权为由,将微软 OpenAI 一起告上法庭。目前这个官司还没有最终判定结果,OpenAI 这一年时间里就自己的行为向法院进行多次解释。

包括但不限于:

1、使用公开可获得的互联网资料训练 AI 模型是合理的,这在 AI 领域内有诸多先例,我们认为这对创作者是公平的,对于创新是必要的。

2、长期以来,版权著作被非商业性使用(比如训练大模型)是受到合理保护的。

3、大语言模型的关键是 Scaling,这意味着任何单独被盗的内容都不足以支撑训练出一个大语言模型,这正是 OpenAI 模型为何领先。

也就是说,OpenAI 本身都在违规使用《纽约 时报》的数据训练闭源、商业化的大模型。现在他们要以违规为由,调查打造系列开源模型的 DeepSeek。

再退一步,OpenAI 如今的成就也是建立在谷歌的基础上(Transformer 架构由谷歌提出),谷歌的成就是站立在更早期的学术研究基础上。

404 Media 表示,这其实是人工智能领域发展的基本逻辑。

就在 OpenAI 挑起矛盾的同时,Anthropic 也下场了。

创始人 Dario Amodei 在个人博客中表达了对 DeepSeek 的看法。

他表示并没有把 DeepSeek 看做是竞争对手,认为 DS 最新模型的水平和他们 7-10 个月前相当,只是成本大幅降低。

(Claude 3.5)Sonnet 的训练是在 9-12 个月前进行的,而 DeepSeek 的模型于 11 月 /12 月进行了训练,而 Sonnet 在许多内部和外部 Evals 中仍然显著领先。

因此,我认为正确的说法是 "DeepSeek 生成了一种模型,用较低的成本(但没有宣传的那么低)实现了接近 7 至 10 个月以前的 Claude 的表现 "。

同时他还认为,DeepSeek 整个公司的成本投入(非单个模型训练成本)和 Anthropic 的 AI 实验室差不多。

奥特曼几乎保持了同样的口径。

他承认 DeepSeek R1 让人印象深刻(尤其是成本),但 OpenAI" 很明显会带来更好的模型 "。

这也是他的常规操作了,之前 V3 发布时,他就阴阳怪气说:相对而言,复制确定有用的东西是很容易的。

那么 DeepSeek R1 的价值究竟几何?

分析师郭明錤最新博客给出参考:

DeepSeek R1 的出现,让两个趋势更加值得关注——虽然没有 R1 这两个趋势也依然存在,但 R1 加速了它们的发生。

一是在 Scaling Law 放缓的情况下,AI 算力仍可透过优化训练方式持续成长,并有利挖掘新应用。

过去 1-2 年,投资者对 AI 服务器供应链的投资逻辑,主要基于 AI 服务器的出货量在 Scaling Law 依然有效的情况下可持续增长。

但 Scaling law 的边际效益开始逐渐递减,市场开始关注以 DeepSeek 为代表的通过 Scaling law 以外的方式显著提升模型效益的路径。

第二个趋势是API/Token 价格的显著下滑,有利于加速 AI 应用的多元化

郭明錤认为,目前从生成式 AI 趋势中获利的方式,主要还是 " 卖铲子 " 和降低成本,而不是创造新业务或提升既有业务的附加值。

而 DeepSeek-R1 的定价策略,会带动生成式 AI 的整体使用成本下降,这有助于增加 AI 算力需求,并且可以降低投资人对 AI 投资能否获利的疑虑。

不过,使用量的提升程度能否抵消价格降低带来的影响,仍然有待观察。

同时,郭明錤表示,只有大量部署者才会遇到 Scaling law 边际效益的放缓,因此当边际效益再度加速时,英伟达将依然是赢家。

参考链接:

[ 1 ] https://www.404media.co/openai-furious-deepseek-might-have-stolen-all-the-data-openai-stole-from-us/

[ 2 ] https://www.ft.com/content/a0dfedd1-5255-4fa9-8ccc-1fe01de87ea6?accessToken=zwAGLNJX-fBAkdOg3-3RUlVPqdOMzB_gHeh-pg.MEYCIQCGjo04z0mtOsKbDspQLq2BMXyw8SbQnlYePOuqiqr6QgIhAInK67eBkYuZS-77ljnP-y--EJdN1wwRQ8GIR8sKMFgE&sharetype=gift&token=1eebbaa7-a4e6-4251-b665-c2f2562b38e4

[ 3 ] https://x.com/GaryMarcus/status/1884601187271581941

[ 4 ] https://mingchikuo.craft.me/g8mybRumSTYD3J