AI在线 AI在线

马尔可夫式思考机

算力成本大降!马尔可夫思考机来了,LLM推理成本直接降为线性

用强化学习让 LLM 具备推理(reasoning)能力确实很有效,但耗费颇高。 这类模型在回答问题前会生成一长串的思维链(LongCoT);并且增加「思考 token」 的数量能够提升模型的能力。 与任何强化学习问题一样,它存在一个决定轨迹如何生成的环境。
10/10/2025 2:52:00 PM
机器之心
  • 1