有专业点的潭友给扫盲一下最近大火的DeepSeek吗?

到底发生了什么?弯道超车了??

1 个赞

是的。弯道超车了!

9 个赞

他们最新发布的AI模型DeepSeek-R1在数学、代码和推理任务上的表现可与OpenAI的o1模型媲美。

DeepSeek选择将其模型完全开源,采用MIT许可协议,允许免费用于商业和学术用途,这与OpenAI等公司采用的订阅模式形成鲜明对比。

DeepSeek还发布了DeepSeek-V3,一种拥有6710亿参数的Mixture-of-Experts(MoE)语言模型,每个token激活370亿参数。

这些成就展示了中国AI初创公司在资源有限的情况下,通过创新算法和高效训练方法,正在迅速缩小与美国领先AI公司的差距。

感人!

52 个赞

这是中国的吗?

是啊。这是大火的其中一个因素

1 个赞

牛逼啊 我正在用DeepSeek 感觉速度要比Chatgpt快一点

2 个赞

deepseek质量确实没有gpt最先进的好,但是训练成本只有openai的1%;api价格好像只有10%

43 个赞

国内量化公司幻方做的

3 个赞

怎么不直接让deepseek给你扫盲

4 个赞

在圈内影响巨大
对meta的llama team冲击很大……毕竟用了1/11的计算资源(人员成本的比例可能更低)结果效果还更好
其他小模型公司更是直接被横扫,基本可以说绝了一大批模型创业公司的路了
可以预见不少原本基于llama 3 finetune的场景后面都会迁移到deepseek的模型

44 个赞

就是工程做了巨大优化,通过深挖潜力减少了显卡数量然后模型效果还很强

6 个赞

推荐这篇文章,讲了deepseek的三个重要创新:

  1. 用低秩分解的方法节省了kv cache的需求并提升训练质量
  2. 用shared expert的结构改善mixture of experts训练质量
  3. 多token同时生成的方法和优化

里面的两句评论很有意思,摘录一下

I’ve heard many people express the sentiment that the DeepSeek team has “good taste” in research. Based just on these architectural improvements I think that assessment is right.

None of these improvements seem like they were found as a result of some brute-force search through possible ideas. Instead, they look like they were carefully devised by researchers who understood how a Transformer works and how its various architectural deficiencies can be addressed.

54 个赞

R1能输出思考过程,有时候看大模型在那里纠结strawberry里面到底有三个r还是两个r特别有趣

8 个赞
9 个赞

24 个赞

现在内部在恐慌怎么justify这么高的cost…

15 个赞

钻老师和deepseek有一个很神奇的故事

GPT刚出的时候,钻老师一个去了10043的高中同学,毕业之后就没有联系的,突然找到钻老师,问能不能借一个美国手机号收一个GPT短信。钻老师一方面不想帮别人注册账号,毕竟自己也想要,另一方面想到10043还是有些疑虑的,就婉拒了。

前不久钻老师linkedin突然多了一个浏览记录,看名字就是这位同学,点开一看,在deepseek工作。

汗都留下来了。

38 个赞

他们团队是全在国内吗还是在外面也有

chatgpt 真傻

17 个赞

我美利坚自有国情