经典文化输出

https://x.com/zhengyanggeng/status/1790238881725518267

笑喷了

重新训练花几个钱? :troll:

GPT公开了训练集?

真没想到gfw还有这个负面效果 :yaoming:

tokenizer是开源的

难怪gpt-4o说话那么flirty 哈哈哈 :joy:

token是干什么的?

中国人热爱AV?

用tokenizer分词,把句子拆开成词语

个人理解是简中训练数据里面一堆有一大堆博彩色情广告垃圾信息

4o的简中很有可能是garbage

单从tokenizer看不出词频吧,只是说这些词出现在训练集里?

如果词频越高,污染效果应该越显著?

这是为啥呢?是故意的还是就是中文互联网其实大部分都是色情内容?

是一堆广告网站以色情关键词吸引点击,没那么多色情内容

:troll: :fire: :fire: :fire: :fire:

合格的钛金选手

1 个赞

干啥?听起来不是那么回事呢

那是推特,不是整个中文互联网。推特确实就是色情中文网

1 个赞

那就还是很多色情内容

能做为 token 本身已经是算是“高频”了,毕竟总 token 数目有限。

红迪上也刷到了 :yaoming:

最新高清无码 = 储备金 :yaoming: