首先预训练
用Transformer架构
吃下海量目标类型数据
理解数据块与数据块之间的关系
然后对齐训练
人类对模型输出进行反馈生成奖励模型
再用奖励模型对模型输出打分
迭代出符合人类偏好的模型
随着数据和训练规模的增加
大模型的表现也相应增强
当突破临界点后
就会涌现出不可思议的能力
而这都来自于一个简单任务的执行
即对下一个词汇的预测
所以说大模型本质上
是一个极其强大的
模式匹配和概率生成系统
首先预训练
用Transformer架构
吃下海量目标类型数据
理解数据块与数据块之间的关系
然后对齐训练
人类对模型输出进行反馈生成奖励模型
再用奖励模型对模型输出打分
迭代出符合人类偏好的模型
随着数据和训练规模的增加
大模型的表现也相应增强
当突破临界点后
就会涌现出不可思议的能力
而这都来自于一个简单任务的执行
即对下一个词汇的预测
所以说大模型本质上
是一个极其强大的
模式匹配和概率生成系统