微软发现 Deepseek 可能 盗用了 OpenAI的数据?

不知道泥潭的大手子对这波的看法是?

3 个赞

美国佬输不起!

36 个赞

ClosedAI的数据不也是偷的么?

39 个赞

之前哪个还说自己是文心一言来着? :yaoming:

3 个赞

OpenAI做了市场调研,开了咖啡店(星巴克)

DeepSeek看人家卖的不错,看看人家卖啥,自己也卖(瑞幸)

仅此而已

38 个赞

希望是这样!希望这波中国的公司可以证明自己。

1 个赞

来 进吵架版

1 个赞

上面哪一句吵架了嘛

1 个赞

Microsoft’s security researchers in the fall observed individuals they believe may be linked to DeepSeek exfiltrating a large amount of data using the OpenAI application programming interface, or API, said the people, who asked not to be identified because the matter is confidential.

翻译一下:我们发现有疑似是 DeepSeek 员工的人曾经给 OpenAI 充过钱调用过 API!

:yaoming: :yaoming: :yaoming: :yaoming: :yaoming:

12 个赞

这个违法吗

‘我们有个共同的邻居施乐’ :yaoming:

4 个赞

哈哈还真是,纽约时报还因此起诉过OpenAI

6 个赞

放心,下个月就全球几百家deepseek公司一起盗了…… :joy:

好像不违法,有两个可能违反 OpenAI 的使用协议的地方就是了:

  1. OpenAI 禁止在中国大陆使用,包括调用 API。
  2. OpenAI 禁止 API 的输出被用于训练其他模型,但这个你没法说用了没有,人家 API 调你的模型也完全可以只是在自己搞的数据集上跑个 eval 看看你的模型表现怎么样好有个对比。

建议友商吸取教训,下次别老实充钱了,上小戏精找 AI 专家 Amy 买盗刷信用卡开的 Azure OpenAI Endpoint,避免留下把柄,一举两得 :troll:

34 个赞

:yaoming: 境外服务器中转一下

开源证明个毛。自己去看呗。另外openai自己训练数据的版权还没个准呢

3 个赞

大哥不说二弟,大模型数据互相抄来抄去早就是一个通用做法,到处都可以看得出来。

但老美还有一个终极杀招,国家安全

15 个赞

National security 最为致命。

2 个赞

其实挺明显的,DeepSeek-R1在思考过程中有时会称自己是OpenAI开发的,我猜是拿GPT去造了不少CoT数据用于训练,本质上也是对GPT的一种蒸馏 :yaoming:

10 个赞

我其实不大相信ds能从头训练一个媲美oai的模型 我猜v3/r1 coldstart或多或少有distill :yaoming:

确实v3用了v2.5的

Non-Reasoning Data.
For non-reasoning data, such as creative writing, role-play, and simple question answering, we utilize DeepSeek-V2.5 to generate responses and enlist human annotators to verify the accuracy and correctness of the data.