微软发现 Deepseek 可能盗用了 OpenAI的数据？

MNca · 2025 年1 月 29 日 13:11

不知道泥潭的大手子对这波的看法是？

昨夜西风凋碧树 · 2025 年1 月 29 日 13:13

美国佬输不起！

P1919 · 2025 年1 月 29 日 13:15

ClosedAI的数据不也是偷的么？

ATRs · 2025 年1 月 29 日 13:31

之前哪个还说自己是文心一言来着？

诸葛亮 · 2025 年1 月 29 日 13:34

OpenAI做了市场调研，开了咖啡店（星巴克）

DeepSeek看人家卖的不错，看看人家卖啥，自己也卖（瑞幸）

仅此而已

MNca · 2025 年1 月 29 日 13:43

希望是这样！希望这波中国的公司可以证明自己。

fandc · 2025 年1 月 29 日 13:43

来进吵架版

MNca · 2025 年1 月 29 日 13:45

上面哪一句吵架了嘛

6insteadof5 · 2025 年1 月 29 日 13:47

Microsoft’s security researchers in the fall observed individuals they believe may be linked to DeepSeek exfiltrating a large amount of data using the OpenAI application programming interface, or API, said the people, who asked not to be identified because the matter is confidential.

翻译一下：我们发现有疑似是 DeepSeek 员工的人曾经给 OpenAI 充过钱调用过 API！

danzhu1hao · 2025 年1 月 29 日 13:49

这个违法吗

maximilianwang · 2025 年1 月 29 日 13:50

‘我们有个共同的邻居施乐’

Halifa1926 · 2025 年1 月 29 日 13:50

哈哈还真是，纽约时报还因此起诉过OpenAI

breakdawn · 2025 年1 月 29 日 13:56

放心，下个月就全球几百家deepseek公司一起盗了……

6insteadof5 · 2025 年1 月 29 日 13:56

好像不违法，有两个可能违反 OpenAI 的使用协议的地方就是了：

OpenAI 禁止在中国大陆使用，包括调用 API。
OpenAI 禁止 API 的输出被用于训练其他模型，但这个你没法说用了没有，人家 API 调你的模型也完全可以只是在自己搞的数据集上跑个 eval 看看你的模型表现怎么样好有个对比。

建议友商吸取教训，下次别老实充钱了，上小戏精找 AI 专家 Amy 买盗刷信用卡开的 Azure OpenAI Endpoint，避免留下把柄，一举两得

maximilianwang · 2025 年1 月 29 日 14:02

境外服务器中转一下

Ogdg · 2025 年1 月 29 日 14:19

开源证明个毛。自己去看呗。另外openai自己训练数据的版权还没个准呢

两只饺子 · 2025 年1 月 29 日 14:20

大哥不说二弟，大模型数据互相抄来抄去早就是一个通用做法，到处都可以看得出来。

但老美还有一个终极杀招，国家安全

MNca · 2025 年1 月 29 日 14:24

National security 最为致命。

Alvis · 2025 年1 月 29 日 14:24

其实挺明显的，DeepSeek-R1在思考过程中有时会称自己是OpenAI开发的，我猜是拿GPT去造了不少CoT数据用于训练，本质上也是对GPT的一种蒸馏

st333 · 2025 年1 月 29 日 14:26

我其实不大相信ds能从头训练一个媲美oai的模型我猜v3/r1 coldstart或多或少有distill

确实v3用了v2.5的

Non-Reasoning Data.
For non-reasoning data, such as creative writing, role-play, and simple question answering, we utilize DeepSeek-V2.5 to generate responses and enlist human annotators to verify the accuracy and correctness of the data.

微软发现 Deepseek 可能 盗用了 OpenAI的数据？

微软发现 Deepseek 可能盗用了 OpenAI的数据？