到底发生了什么?弯道超车了??
是的。弯道超车了!
他们最新发布的AI模型DeepSeek-R1在数学、代码和推理任务上的表现可与OpenAI的o1模型媲美。
DeepSeek选择将其模型完全开源,采用MIT许可协议,允许免费用于商业和学术用途,这与OpenAI等公司采用的订阅模式形成鲜明对比。
DeepSeek还发布了DeepSeek-V3,一种拥有6710亿参数的Mixture-of-Experts(MoE)语言模型,每个token激活370亿参数。
这些成就展示了中国AI初创公司在资源有限的情况下,通过创新算法和高效训练方法,正在迅速缩小与美国领先AI公司的差距。
感人!
这是中国的吗?
是啊。这是大火的其中一个因素
牛逼啊 我正在用DeepSeek 感觉速度要比Chatgpt快一点
deepseek质量确实没有gpt最先进的好,但是训练成本只有openai的1%;api价格好像只有10%
国内量化公司幻方做的
怎么不直接让deepseek给你扫盲
在圈内影响巨大
对meta的llama team冲击很大……毕竟用了1/11的计算资源(人员成本的比例可能更低)结果效果还更好
其他小模型公司更是直接被横扫,基本可以说绝了一大批模型创业公司的路了
可以预见不少原本基于llama 3 finetune的场景后面都会迁移到deepseek的模型
就是工程做了巨大优化,通过深挖潜力减少了显卡数量然后模型效果还很强
推荐这篇文章,讲了deepseek的三个重要创新:
- 用低秩分解的方法节省了kv cache的需求并提升训练质量
- 用shared expert的结构改善mixture of experts训练质量
- 多token同时生成的方法和优化
里面的两句评论很有意思,摘录一下
I’ve heard many people express the sentiment that the DeepSeek team has “good taste” in research. Based just on these architectural improvements I think that assessment is right.
None of these improvements seem like they were found as a result of some brute-force search through possible ideas. Instead, they look like they were carefully devised by researchers who understood how a Transformer works and how its various architectural deficiencies can be addressed.
R1能输出思考过程,有时候看大模型在那里纠结strawberry里面到底有三个r还是两个r特别有趣
现在内部在恐慌怎么justify这么高的cost…
钻老师和deepseek有一个很神奇的故事
GPT刚出的时候,钻老师一个去了10043的高中同学,毕业之后就没有联系的,突然找到钻老师,问能不能借一个美国手机号收一个GPT短信。钻老师一方面不想帮别人注册账号,毕竟自己也想要,另一方面想到10043还是有些疑虑的,就婉拒了。
前不久钻老师linkedin突然多了一个浏览记录,看名字就是这位同学,点开一看,在deepseek工作。
汗都留下来了。
他们团队是全在国内吗还是在外面也有
我美利坚自有国情