就剩下了一堆没法训练AI的垃圾内容。
就比如,《大时代之巅》到底是一本怎样的书?
如果有人说好,有人说不好,这些内容就都是有价值的内容,AI模型经过一番的训练和评估,从而给出比较客观公正的评价。
如果作者想要维护评论区的和谐,把所有说好的内容都留下了,说差的内容都删除了,最后只剩下了一片赞歌,那么即便这些赞歌都是对的,这也是垃圾信息。
因为对AI模型来说缺少了多元化的评判。
从出发点到终点,有一万条路,AI模型的训练就是把这一万条路都走一遍,然后选出最合适的那条路,这才是AI的价值。
就像生物制药,有一万种选择,AI帮忙给出最好的那几个选择,就会大大地缩减研发经费、提高研发成功率。
要是一开始就只提供一条路,那还训练个屁啊,不给AI选择、评判、思考和分析的机会,就只告诉他一个标准答案,AI就会毫无意义。
德文、法文、日文、韩文的数据量太少,中文的数据量很大,可是因为环境的限制有价值的数据也很少。
所以,想训练出世界级的AI模型,就只能用英文语料来训练。
这就需要一些弱势语言的AI模型,要有语言转换能力,去转换成英文。
就像使用文心一言,让他画一个起重机的图片。
结果画的是鹤。
这就很让人费解。
其实很简单,起重机的英文是crane,而crane在英文里主要是指鹤。所以AI模型就画出了鹤的图片。
又比如“可乐鸡翅”这种,放在中文语境里,其实很好理解,就是一道菜。可是,这里面有一道翻译的手续,把“可乐鸡翅”翻译成英文,在翻译过程中就造成了信息离散,导致画出来的可乐和鸡翅。
ChatGPT一样会遇到这样的困境。
用英文向ChatGPT提问,回