标签: 过度训练
thumbnail

AI训练数据即将耗尽?2026年或面临数据荒,过度训练成罪魁祸首

AI发展科研机构Epochai在官网发布了一项,关于大模型消耗训练数据的研究报告。目前,人类公开的高质量文本训练数据集大约有300万亿tokens。