阅读计划

Semantic ID 上的 Reasoning

生成式推荐 · 60 篇 · English ↗

多数工作都在攻击 TIGER 的某一个固定选择。本计划只跟 reasoning 这一支,也就是下面的七块。核心争论:显式 CoT 到底有没有用,还是细粒度奖励 / 潜推理更香?

0 / 60 已读

往哪使劲。三股力量在打架——SIDReasoner 说显式推理+结果奖励有用;SAPO 说奖励太粗、要层级信用分配;Why Thinking Hurts / PAUSEREC 说显式 CoT 可能有害。离你 TIGER 代码最近:层级 SID 上的细粒度信用分配,或潜 / 过程奖励推理。