Avatar

Qianqiu

Master in PKU Research Direction: VLM, RLHF, MLsys Hobbies: Game, Web novel, Anime

  1. WeChat
  1. Home
  2. Diary
  3. Research
  4. Entertain
  5. Search
  6. Archives
  7. About
    1. Dark Mode Light Mode
Diary

转码学习day6

Jan 26, 2026

摸鱼晚了,四点开始学习。今天看《动手学强化学习》,之前已经把鱼书和动手学深度学习看的差不多了,这学期也选了郁老师的课,一大半的篇幅就是在讲这些强化学习,我看了下目录。很多其实大模型入门的话已经用不到了,可能具身智能和机器人还有用,以后再学。

简单挑出来了第一章简介,第三章MDP,第四章DP,第九章策略梯度,第十章Actor-Critic,第十二章PPO算法,入门大模型这些应该是最重要的,吧?(从我已有知识和规划来看,其他的可以以后再补充)。今天先看完这些,毕竟原来就有一些积累,不能在基础知识花太多时间。主要还是要回归到“干中学”去,找个hugging face的基座,慢慢学习各个阶段的训练流程。

晚饭后花了143分钟来看《超时空辉耀姬》,挺有经费的一部乐子片,融入了海量的要素。

把上面的章节看完了,大致明白了PPO到RLHF的过程。、

刷两题lc:19、101

明天继续学习,效率要高一点了。

多嘴一句,有点想回家了,在犹豫要不要动车硬座370回家还是硬卧520回家,以前在成都上学就不用考虑这么多,因为成都福建区间就没有这么便宜的火车票。

Related content

学习day28:

学习day27:

学习day26:

学习day25:

未学习day24:计划赶不上变化,又摆一天

© 2025 - 2026 Qianqiu
Built with Hugo
Theme Stack designed by Jimmy