摸鱼晚了,四点开始学习。今天看《动手学强化学习》,之前已经把鱼书和动手学深度学习看的差不多了,这学期也选了郁老师的课,一大半的篇幅就是在讲这些强化学习,我看了下目录。很多其实大模型入门的话已经用不到了,可能具身智能和机器人还有用,以后再学。
简单挑出来了第一章简介,第三章MDP,第四章DP,第九章策略梯度,第十章Actor-Critic,第十二章PPO算法,入门大模型这些应该是最重要的,吧?(从我已有知识和规划来看,其他的可以以后再补充)。今天先看完这些,毕竟原来就有一些积累,不能在基础知识花太多时间。主要还是要回归到“干中学”去,找个hugging face的基座,慢慢学习各个阶段的训练流程。
晚饭后花了143分钟来看《超时空辉耀姬》,挺有经费的一部乐子片,融入了海量的要素。
把上面的章节看完了,大致明白了PPO到RLHF的过程。、
刷两题lc:19、101
明天继续学习,效率要高一点了。
多嘴一句,有点想回家了,在犹豫要不要动车硬座370回家还是硬卧520回家,以前在成都上学就不用考虑这么多,因为成都福建区间就没有这么便宜的火车票。