Shiranai
我的羊听我的声音,我也认识他们,他们也跟着我。—— John 10:27
搜索关键字
搜索
首页
My CV
归档
关于
直接偏好优化(DPO)
作者:
F
时间:
08-12-2025
分类:
开发随想
标签: none
取消回复
添加新评论
称呼
Email
网站
内容
提交评论
上一篇:
谈 Keir Starmer
下一篇:
Tongyi DeepResearch 技术报告深度分析
最新文章
文艺b抑郁的理由
写于鸭绿江旁
关于爱、死亡和机器人
夜祷词
Dynamic Construction of Causal Knowledge Graphs for Scientific Reasoning in Search Agents
Tongyi DeepResearch 技术报告深度分析
直接偏好优化(DPO)
谈 Keir Starmer
从强化学习到近端策略优化(PPO)
Post-LN Transformer 训练不稳定性的数学分析
最近回复
Opsimath
: 大好き
分类
开发随想
胡言
论文笔记
归档
January 2026
December 2025
November 2025
August 2025
July 2025
May 2025
April 2025
February 2025
January 2025
December 2024
November 2024
October 2024
September 2024
August 2024
June 2024
March 2024
January 2024
November 2023
October 2023
August 2023
July 2023
其它
登录
文章 RSS
评论 RSS
Typecho