您好,感谢公开vibe-thinker-1.5B的技术报告 能否在技术报告里面追加一些实验细节呢? 1. SFT阶段后模型的效果 2. SFT/RL训练的一些超参 3. 模型融合的有效性 4. MGPO和单纯GRPO的有效性比较 再次感谢开源这么棒的工作!