https://x.com/zhengyanggeng/status/1790238881725518267
笑喷了
重新训练花几个钱?
GPT公开了训练集?
真没想到gfw还有这个负面效果
tokenizer是开源的
token是干什么的?
中国人热爱AV?
用tokenizer分词,把句子拆开成词语
个人理解是简中训练数据里面一堆有一大堆博彩色情广告垃圾信息
4o的简中很有可能是garbage
单从tokenizer看不出词频吧,只是说这些词出现在训练集里?
如果词频越高,污染效果应该越显著?
这是为啥呢?是故意的还是就是中文互联网其实大部分都是色情内容?
是一堆广告网站以色情关键词吸引点击,没那么多色情内容
合格的钛金选手
干啥?听起来不是那么回事呢
那是推特,不是整个中文互联网。推特确实就是色情中文网
那就还是很多色情内容
能做为 token 本身已经是算是“高频”了,毕竟总 token 数目有限。
最新高清无码 = 储备金