Avatar

Qianqiu

Master in PKU Research Direction: VLM, RLHF, MLsys Hobbies: Game, Web novel, Anime

  1. WeChat
  1. Home
  2. Diary
  3. Research
  4. Entertain
  5. Search
  6. Archives
  7. About
    1. Dark Mode Light Mode
转码日记

转码学习day9

Jan 29, 2026

今天打算直接开始学项目,天天下午刷力扣太浪费时间了,而且脑细胞死的快。力扣留到晚上睡前吧。

transformer架构每个decoder都收到了最后一个encoder的输出,而不是只有最后一层 decoder 才做 cross-attention,这是为了每个抽象阶段的decoder预测都能重新参考输入。在ablation中,如果只在最后一层做cross-attention,其他层不做,则条件利用率明显下降,更像在“润色”而不是“受条件生成”。

model-head,连接在模型后的层,输入128,输出768,最终输出维度1x128x768,hidden state经过不同head映射到不同的任务输出。

学习了一下Datasets库怎么导入划分数据集,怎么自定义dataloader,collate_fn函数怎么用或者自定义.怎么根据feature和要求划分数据巴拉巴拉。碰到feature和字段套了好几层的数据集,如何提取等等。单一层字段datasets.value,套了一层以上的字段则datasets.features.Sequence.

lc:45、55、1326

默写mha一遍,睡觉

Related content

学习day46:尘埃落定

学习day45:休养生息,也许接近这次的转码日记尾声了,期待下次再出发。

学习day44:接到第一个offer,晚上又面试,间歇性学习八股和力扣

学习day43:午晚各一面

学习day42:一面水过去

© 2025 - 2026 Qianqiu
Built with Hugo
Theme Stack designed by Jimmy