Avatar

Qianqiu

Master in PKU Research Direction: VLM, RLHF, MLsys Hobbies: Game, Web novel, Anime

  1. WeChat
  1. Home
  2. Diary
  3. Research
  4. Entertain
  5. Search
  6. Archives
  7. About
    1. Dark Mode Light Mode
Diary

转码学习day9

Jan 29, 2026

今天打算直接开始学项目,天天下午刷力扣太浪费时间了,而且脑细胞死的快。力扣留到晚上睡前吧。

transformer架构每个decoder都收到了最后一个encoder的输出,而不是只有最后一层 decoder 才做 cross-attention,这是为了每个抽象阶段的decoder预测都能重新参考输入。在ablation中,如果只在最后一层做cross-attention,其他层不做,则条件利用率明显下降,更像在“润色”而不是“受条件生成”。

model-head,连接在模型后的层,输入128,输出768,最终输出维度1x128x768,hidden state经过不同head映射到不同的任务输出。

学习了一下Datasets库怎么导入划分数据集,怎么自定义dataloader,collate_fn函数怎么用或者自定义.怎么根据feature和要求划分数据巴拉巴拉。碰到feature和字段套了好几层的数据集,如何提取等等。单一层字段datasets.value,套了一层以上的字段则datasets.features.Sequence.

lc:45、55、1326

默写mha一遍,睡觉

Related content

学习day28:

学习day27:

学习day26:

学习day25:

未学习day24:计划赶不上变化,又摆一天

© 2025 - 2026 Qianqiu
Built with Hugo
Theme Stack designed by Jimmy