Post

llama.cpp将think输出到content中

最开始使用的ollama, 发现很多模型生成效果,或者回答效果都不太好。

后面发现是因为ollama一般提供的都是q4量化的。 后面就转用 llama.cpp 了。

这里发现一个问题,酒馆使用的时候, llama.cpp 将思考内容输出到 content,字段中了。 而我在使用线上模型时,是输出到 reasoning_content 字段中。

我搜索了一圈,说加上``启动参数就好,但是还是不行,下面是我的启动参数:

1
./llama-server -m /root/autodl-tmp/models/Qwen3.5-27B-Uncensored-HauhauCS-Aggressive-Q6_K.gguf --ctx-size 131072 --jinja --host 0.0.0.0 --port 6006  --reasoning-format auto --chat-template-kwargs '{"enable_thinking":true}'

有点无语,找了很久也没找到解决方案。 备注一下,后面找了再来更新。

This post is licensed under CC BY 4.0 by the author.