课程内容包含:ChatGPT 引发的 RL 重出江湖:强化学习的底层原理,pre-training,reward model,PPO等内容
开始学习课程内容包含:ChatGPT 引发的 RL 重出江湖:强化学习的底层原理,pre-training,reward model,PPO等内容
开始学习01-强化学习的底层原理
50:2902-强化学习第一阶段:Pre-Training
15:3403-强化学习第二阶段:Reward Model
18:2304-强化学习第三阶段:PPO
14:27
评论发表成功
确定