llama.cpp将think输出到content中

Posted Apr 17, 2026

By ray.zhang 1 min read

最开始使用的ollama, 发现很多模型生成效果，或者回答效果都不太好。

后面发现是因为ollama一般提供的都是q4量化的。后面就转用 llama.cpp 了。

这里发现一个问题，酒馆使用的时候， llama.cpp 将思考内容输出到 content，字段中了。而我在使用线上模型时，是输出到 reasoning_content 字段中。

我搜索了一圈，说加上``启动参数就好，但是还是不行，下面是我的启动参数：

./llama-server -m /root/autodl-tmp/models/Qwen3.5-27B-Uncensored-HauhauCS-Aggressive-Q6_K.gguf --ctx-size 131072 --jinja --host 0.0.0.0 --port 6006  --reasoning-format auto --chat-template-kwargs '{"enable_thinking":true}'

有点无语，找了很久也没找到解决方案。备注一下，后面找了再来更新。

ai, 大模型

启动参数

This post is licensed under CC BY 4.0 by the author.

Trending Tags