转码学习day6

摸鱼晚了，四点开始学习。今天看《动手学强化学习》，之前已经把鱼书和动手学深度学习看的差不多了，这学期也选了郁老师的课，一大半的篇幅就是在讲这些强化学习，我看了下目录。很多其实大模型入门的话已经用不到了，可能具身智能和机器人还有用，以后再学。

简单挑出来了第一章简介，第三章MDP，第四章DP，第九章策略梯度，第十章Actor-Critic，第十二章PPO算法，入门大模型这些应该是最重要的，吧？（从我已有知识和规划来看，其他的可以以后再补充）。今天先看完这些，毕竟原来就有一些积累，不能在基础知识花太多时间。主要还是要回归到“干中学”去，找个hugging face的基座，慢慢学习各个阶段的训练流程。

晚饭后花了143分钟来看《超时空辉耀姬》，挺有经费的一部乐子片，融入了海量的要素。

把上面的章节看完了，大致明白了PPO到RLHF的过程。、

刷两题lc：19、101

明天继续学习，效率要高一点了。

多嘴一句，有点想回家了，在犹豫要不要动车硬座370回家还是硬卧520回家，以前在成都上学就不用考虑这么多，因为成都福建区间就没有这么便宜的火车票。