o1专题 / 推理/RL（知乎阅读）

用户8190

2025年4月11日修改

2024年10月15日创建

9026

9747

Do We Really Need Reverse KL or Forward KL in LLM RLHF?

在强化学习 PPO 算法中，为什么可以把 KL 散度直接放进负奖励？​

《从零实现强化学习、RLHF、AlphaZero》-4：基于策略的强化学习2-理论基础补充、TRPO、PPO​

影响PPO算法性能的10个关键技巧（附PPO算法简洁Pytorch实现）

零基础的强化学习笔记

国内哪些教授在强化学习 (Reinforcement Learning)领域有好的工作？​

强化学习在物理世界里落地还有多久？

生成式奖励模型速览

一篇文章对比MPC与强化学习

2024年大模型Alignment偏好优化技术PPO,DPO, SimPO,KTO,Step-DPO, MCTS-DPO,SPO​

除了微调和DPO之外，还有什么比较好优化大语言模型的方法？​

拆解大语言模型RLHF中的PPO

超越DPO之Step-DPO

Superalignment系列论文阅读笔记（3）：“零训练成本”对齐大语言模型​

不那么显然的 RLHF

回顾·总结·展望「融合RL与LLM思想，探寻世界模型以迈向AGI」​

RLHF的其他优化方向

llm+rl训练项目的一些takeaway

训练您的第一个深度强化学习代理 🤖

o1专题 / 推理/RL（知乎阅读）​