Shiranai

我的羊听我的声音,我也认识他们,他们也跟着我。—— John 10:27

首页 My CV 归档 关于

从强化学习到近端策略优化(PPO)

  • 作者: F
  • 时间: 06-12-2025
  • 分类: 开发随想

标签: none

取消回复

添加新评论

  • 上一篇: Post-LN Transformer 训练不稳定性的数学分析
  • 下一篇: 谈 Keir Starmer

最新文章

  • 文艺b抑郁的理由
  • 写于鸭绿江旁
  • 关于爱、死亡和机器人
  • 夜祷词
  • Dynamic Construction of Causal Knowledge Graphs for Scientific Reasoning in Search Agents
  • Tongyi DeepResearch 技术报告深度分析
  • 直接偏好优化(DPO)
  • 谈 Keir Starmer
  • 从强化学习到近端策略优化(PPO)
  • Post-LN Transformer 训练不稳定性的数学分析

最近回复

  • Opsimath: 大好き

分类

  • 开发随想
  • 胡言
  • 论文笔记

归档

  • January 2026
  • December 2025
  • November 2025
  • August 2025
  • July 2025
  • May 2025
  • April 2025
  • February 2025
  • January 2025
  • December 2024
  • November 2024
  • October 2024
  • September 2024
  • August 2024
  • June 2024
  • March 2024
  • January 2024
  • November 2023
  • October 2023
  • August 2023
  • July 2023

其它

  • 登录
  • 文章 RSS
  • 评论 RSS
  • Typecho
© 2026 Shiranai. 由 Typecho 强力驱动.
湘ICP备2025133933号