NeurIPS 2025 | DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路 参考链接:https://mp.weixin.qq.com/s/hWdqk3ZYZJzd81-eXPa4jw
MIT何恺明团队新作:让扩散模型回归“去噪”本质,简单Transformer即可实现SOTA性能 参考链接:https://zhuanlan.zhihu.com/p/1974130263698216733
NeurIPS-2025 Best paper:一行代码带来的革命:大模型「门控注意力」为何能让性能暴涨? 参考链接:https://mp.weixin.qq.com/s/HYxNgNsZDkpyb2TZU5EB5w
热点关注丨2026开年关键词:Self-Distillation,大模型真正走向「持续学习」 参考链接:https://mp.weixin.qq.com/s/b7M78B9LacHiT_9FMMLCGQ