o1专题 / 推理/RL(知乎阅读)
输入“/”快速插入内容
o1专题 / 推理/RL(知乎阅读)
用户8190
用户8190
2025年4月11日修改
2024年10月15日创建
9026
9747
https://www.zhihu.com/question/1893241692582285916/answer/1893639658321200196?utm_psn=1893815974551070662
Do We Really Need Reverse KL or Forward KL in LLM RLHF?
https://zhuanlan.zhihu.com/p/28485255680
在强化学习 PPO 算法中,为什么可以把 KL 散度直接放进负奖励?
https://www.zhihu.com/question/629107126/answer/3353465906
《从零实现强化学习、RLHF、AlphaZero》-4:基于策略的强化学习2-理论基础补充、TRPO、PPO
https://zhuanlan.zhihu.com/p/700607830
影响PPO算法性能的10个关键技巧(附PPO算法简洁Pytorch实现)
https://zhuanlan.zhihu.com/p/512327050
零基础的强化学习笔记
https://zhuanlan.zhihu.com/p/702263821
国内哪些教授在强化学习 (Reinforcement Learning)领域有好的工作?
https://www.zhihu.com/question/54402593/answer/3309215292
强化学习在物理世界里落地还有多久?
https://zhuanlan.zhihu.com/p/718736350
生成式奖励模型速览
https://zhuanlan.zhihu.com/p/717603521
一篇文章对比MPC与强化学习
https://zhuanlan.zhihu.com/p/717006206
2024年大模型Alignment偏好优化技术PPO,DPO, SimPO,KTO,Step-DPO, MCTS-DPO,SPO
https://zhuanlan.zhihu.com/p/710021282
除了微调和DPO之外,还有什么比较好优化大语言模型的方法?
https://www.zhihu.com/question/650415892/answer/3508696857
拆解大语言模型RLHF中的PPO
https://zhuanlan.zhihu.com/p/645225982
超越DPO之Step-DPO
https://zhuanlan.zhihu.com/p/706106906
Superalignment系列论文阅读笔记(3):“零训练成本”对齐大语言模型
https://zhuanlan.zhihu.com/p/708864009
不那么显然的 RLHF
https://zhuanlan.zhihu.com/p/642385494
回顾·总结·展望「融合RL与LLM思想,探寻世界模型以迈向AGI」
https://zhuanlan.zhihu.com/p/699311834?utm_psn=1777021007058321409
RLHF的其他优化方向
https://zhuanlan.zhihu.com/p/612572103
llm+rl训练项目的一些takeaway
https://zhuanlan.zhihu.com/p/27973092256
训练您的第一个深度强化学习代理 🤖
https://huggingface.co/learn/deep-rl-course/unit1/hands-on