增量）预训练、（多模态）指令监督微调、奖励模型训练、PPO 训练、DPO 训练、KTO 训练、ORPO 训练，经常提到的rlhf指的是哪几种训练方法 #6583

Unanswered

qkkcoolmax asked this question in Q&A

qkkcoolmax
Jan 9, 2025

Description

增量）预训练、（多模态）指令监督微调、奖励模型训练、PPO 训练、DPO 训练、KTO 训练、ORPO 训练，经常提到的rlhf指的是哪几种训练方法

Pull Request

增量）预训练、（多模态）指令监督微调、奖励模型训练、PPO 训练、DPO 训练、KTO 训练、ORPO 训练，经常提到的rlhf指的是哪几种训练方法

Replies: 0 comments

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment