最近国内各大厂商的旗舰模型更新了,下面实际测试一下 Qwen3.6-plus、DeepSeek V4 Pro、GLM-5.1、MiniMax-M2.7、Kimi-K2.6、MiMo-V2.5-Pro 这些模型在 日常问答、日常文档处理、Hermes 搜索与 RAG 能力、编程能力方面做实际测试。
模型来源
| 模型 | 提供商 |
|---|---|
| Qwen3.6-plus | 阿里百炼 |
| DeepSeek V4 Pro | DeepSeek |
| MiniMax-M2.7 | MiniMax |
| GLM-5.1 | 火山引擎 |
| Kimi-K2.6 | 火山引擎 |
| MiMo-V2.5-Pro | OpenRouter |
所有模型接入New-API中转,消耗Token量、请求次数都以New-API日志显示为准。
测试方案
- Open WebUI:每次问答都创建新对话
- Hermes Agent:避免记忆等不确定因素干扰,Hermes安装在PVE中,测试前创建了快照还原点,每做一个模型测试,还原快照。
- OpenCode:每个模型单独创建独立项目,互不干扰。
1. 问答
- 测试工具:Open WebUI
- 测试目标:多步推理、逻辑陷阱、数学能力
- 测试题目:简单问题就算了,直接上点有难度的
问题一:逻辑陷阱,能否识别无效推理,拒绝回答。
问:一条船上有75头羊,32只鸡,问船长年龄?
| 模型 | 输入Token | 输出Token | 思考时间 | 答案 |
|---|---|---|---|---|
| Qwen3.6-plus | 27 | 691 | 10秒 | 无法确定。 |
| DeepSeek V4 Pro | 19 | 175 | 3秒 | 无法确定。 |
| MiniMax-M2.7 | 55 | 703 | 14秒 | 不知道,或者直接说“这道题没有解” |
| GLM-5.1 | 21 | 907 | 27秒 | 无法根据已知条件得出船长的年龄 |
| Kimi-K2.6 | 22 | 302 | 5秒 | 无法得知船长的年龄 |
| MiMo-V2.5-Pro | 77 | 443 | 5秒 | 这道题没有答案 |

问题二:时间推理,时间概念的多维度转换
问:如果昨天是明天就好了,这样今天就是周五了。今天是周几?
这题应该有歧义,看怎么想,反正我是没弄灵情答案是啥,大家看AI分析自己判断谁对谁错吧。
| 模型 | 输入Token | 输出Token | 思考时间 | 答案 |
|---|---|---|---|---|
| Qwen3.6-plus | 26 | 2681 | 42秒 | 周三、周日 |
| DeepSeek V4 Pro | 20 | 9279 | 4分钟 | 周日 |
| MiniMax-M2.7 | 56 | 3831 | 1分钟 | 周日 |
| GLM-5.1 | 22 | 1245 | 22秒 | 周三、周日 |
| Kimi-K2.6 | 23 | 5537 | 3分钟 | 周三、周日 |
| MiMo-V2.5-Pro | 76 | 5908 | 2分钟 | 周三、周日 |

问题三:数学抽屉原理
问:一个盒子里有10个红球和10个蓝球,闭眼随机取球。至少取多少次才能保证一定有2个同色球?
| 模型 | 输入Token | 输出Token | 思考时间 | 答案 |
|---|---|---|---|---|
| Qwen3.6-plus | 43 | 754 | 12秒 | 至少取 3次 |
| DeepSeek V4 Pro | 36 | 219 | 4秒 | 至少需要取 3 次 |
| MiniMax-M2.7 | 73 | 758 | 11秒 | 3 次 |
| GLM-5.1 | 40 | 1107 | 27秒 | 至少取 3次 才能保证一定有2个同色球 |
| Kimi-K2.6 | 36 | 503 | 8秒 | 至少取 3 次才能保证一定有 2 个同色球 |
| MiMo-V2.5-Pro | 95 | 386 | 1秒 | 至少取 3 次,就能保证一定有 2 个同色球 |

问题四:多条件逻辑推理
问:甲、乙、丙三人中有一人说了真话。甲说:乙在说谎。乙说:丙在说谎。丙说:甲和乙都在说谎。谁说真话?
| 模型 | 输入Token | 输出Token | 思考时间 | 答案 |
|---|---|---|---|---|
| Qwen3.6-plus | 50 | 1427 | 21秒 | 乙说真话 |
| DeepSeek V4 Pro | 44 | 610 | 14秒 | 乙说真话 |
| MiniMax-M2.7 | 81 | 1624 | 20秒 | 乙说真话,甲和丙在说谎 |
| GLM-5.1 | 50 | 1413 | 36秒 | 乙说了真话 |
| Kimi-K2.6 | 45 | 801 | 16秒 | 乙说了真话 |
| MiMo-V2.5-Pro | 103 | 557 | 5秒 | 乙说了真话。 甲和丙都在说谎 |

问题五:命题转换与逻辑分析
问:将以下命题转为直言命题形式并判断真假:如果明天不下雨,我们就去爬山
| 模型 | 输入Token | 输出Token | 思考时间 | 答案 |
|---|---|---|---|---|
| Qwen3.6-plus | 30 | 2468 | 36秒 | 所有明天不下雨的情况,都是我们去爬山的情况 |
| DeepSeek V4 Pro | 24 | 995 | 31秒 | 所有明天不下雨的日子都是我们去爬山的日子 |
| MiniMax-M2.7 | 60 | 1865 | 35秒 | 所有不下雨的日子都是我们去爬山的日子(丢掉了明天) |
| GLM-5.1 | 26 | 1711 | 43秒 | 所有明天不下雨的情况,都是我们去爬山的情况 |
| Kimi-K2.6 | 27 | 3733 | 2分钟 | 所有明天不下雨的情况,都是我们去爬山的情况 |
| MiMo-V2.5-Pro | 81 | 3922 | 1分钟 | 所有明天不下雨的情况都是我们去爬山的情况 |

2. 日常文档处理
- 测试工具:Open WebUI
- 测试目标:理解、总结、转换、提取
- 测试题目:复制 Hermes v0.11.0 releases (
https://github.com/NousResearch/hermes-agent/releases/tag/v2026.4.23)更新日志内容,总结一下更新了什么,有什么需要注意的,以中文回答。

| 模型 | 输入Token | 输出Token | 思考时间 | 点评总结(个人观点,仅供参考,详细可以查看每个模型生成结果) |
|---|---|---|---|---|
| Qwen3.6-plus | 8017 | 3673 | 44秒 | 总结最清晰结构化,按模块分类亮点+注意事项,条理极佳,适合快速查阅,但细节略繁 |
| DeepSeek V4 Pro | 7185 | 2622 | 52秒 | 内容最全面详尽,几乎覆盖所有主要更新点和注意事项,结构清晰,实用性很强。 |
| MiniMax-M2.7 | 6938 | 904 | 5秒 | 简洁干练,重点突出核心亮点和Breaking Changes,适合想快速了解关键变更的用户。 |
| GLM-5.1 | 7041 | 2000 | 1秒 | 信息量最大,包含提交统计、大量具体功能细节和分类表格,深度最好,但相对较长。 |
| Kimi-K2.6 | 6925 | 2940 | 32秒 | 组织逻辑严谨、语言流畅平衡,很好地兼顾了亮点介绍与注意事项的权重,整体阅读体验佳。 |
| MiMo-V2.5-Pro | 7842 | 1663 | 16秒 | 总结最为精炼概括,突出核心变化和升级建议,适合不想看长文的普通用户,但细节相对较少。 |
Qwen3.6-plus

DeepSeek V4 Pro

MiniMax-M2.7

GLM-5.1

Kimi-K2.6

MiMo-V2.5-Pro

3. 搜索与RAG 能力
- 测试工具:Hermes Agent,搜索引擎 Tavily
- 测试前提:在
https://zengwu.com.cn博客600多篇文章,第一个内容在2026-04-27发表博客文章,第二篇在2019-10-28发表博客文章,网站有标准的网站地图。 - 测试问题:在
https://zengwu.com.cn博客中检找到以下内容,仅在指定的博客中找:1. DeepSeek V4 Pro 官方价格多少;2. WPS表格时间戳转时间显示方法。
| 模型 | 调用次数 | 总输入Token | 总缓存Token | 总输出Token | 结果 |
|---|---|---|---|---|---|
| Qwen3.6-plus | 18 | 508876 | 0 | 3945 | 二个问题都找到 |
| DeepSeek V4 Pro | 23 | 640800 | 613248 | 3935 | 二个问题都找到 |
| MiniMax-M2.7 | 21 | 721511 | 620385 | 3437 | 找到问题1,未找到问题2 |
| GLM-5.1 | 31 | 965960 | 761728 | 2408 | 二个问题都找到 |
| Kimi-K2.6 | 6 | 124165 | 0 | 1270 | 二个问题都找到 |
| MiMo-V2.5-Pro | 34 | 1281830 | 1189376 | 4340 | 二个问题都找到 |
Qwen3.6-plus
- 首先近期文章找到第一个问题,DeepSeekV4价格
- 调用站内搜索,直接找到第二个问题。

DeepSeek V4 Pro
- 主页找到问题1中DeepSeekV4价格
- 查找wps标签,没有找到
- 站内搜索,找到文件
- JS提取信息

MiniMax-M2.7
- 只从主页找到了近期文章的DeepSeekV4价格,另一个旧远文章未找到。
- 尝试站内搜索,调用失败;
- 尝试web_search带site 搜索,用的关键词是
WPS表格,我文章中用到的WPS 表格中间有空格,没搜到; - 就结束了.
- 但提供了模型给的WPS表格时间戳转时间显示方法

GLM-5.1
- 先去博客主页找到第一篇内容;
- 然后尝试站内搜索,调用失败;
- 尝试分类、Tag、文章名拼音连接等都失败;
- 最后获取网站地图检索到内容链接,再用
web_extract提取

Kimi-K2.6
- 直接使用了
web_search带 site 参数搜索二个问题; - 问题1,关键词搜 “DeepSeek” 搜到
- 问题2,关键词分割了“WPS 表格 时间戳 转时间”
- 二个问题都搜到了,然后直接提取

MiMo-V2.5-Pro
- 调用
web_search搜索,关键词不对,未搜到 - 去首页找到了问题1的DeepSeek价格
- 获取详细价格时被中断,调用
web_extract提取完整内容 - 获取问题1答案
- 调用站内搜索
- 找到相关文章,提取内容完成问题2

4. 编程能力
在 OpenCode创建新工程,直接输入以下对话,直接从零开始创建。
设计一个爬虫程序,爬取新闻网站时需要:
1) 去重
2) 增量爬取
3) 异常处理
给出可执行的完成代码程序
| 模型 | 首次完成调用次数 | 首次完成输入Token | 首次完成输入缓存Token | 首次完成输出Token | 总输入Token | 总缓存Token | 总输出Token | 手动修正次数 | 结果 |
|---|---|---|---|---|---|---|---|---|---|
| Qwen3.6-plus | 29 | 509512 | 0 | 17378 | 632068 | 0 | 18775 | 2次 | 一次完成,但需手动配置 |
| DeepSeek V4 Pro | 13 | 394919 | 310957 | 11670 | 495117 | 393152 | 19961 | 2次 | yml配置,但配置文站点太复杂了 |
| MiniMax-M2.7 | 26 | 635992 | 532109 | 9177 | 1705000 | 1540442 | 19627 | 6次 | 有bug调试后完成 |
| GLM-5.1 | 27 | 694497 | 374272 | 4883 | 694497 | 374272 | 4883 | 0次 | 一次完成 |
| Kimi-K2.6 | 17 | 256492 | 0 | 21726 | 1595662 | 0 | 38265 | 4次 | 无法爬取JavaScript新闻,调整后完成 |
| MiMo-V2.5-Pro | 24 | 398103 | 349824 | 9323 | 24 | 398103 | 349824 | 9323 | 一次完成 |
Qwen3.6-plus
- 爬取程序一次完成,并按需求写入db据据库,但没有查询和显示数据的脚本。

- 不过要手动配置爬取的新闻网站,这个不会配,让AI自己配置了一个新浪的,再写了一个查询脚本,测试基本成功 。
NEWS_SITES = [
{
"name": "sina_news",
"base_url": "https://news.sina.com.cn",
"start_urls": [
"https://news.sina.com.cn/",
"https://news.sina.com.cn/china/",
"https://news.sina.com.cn/world/",
"https://news.sina.com.cn/society/",
],
"allowed_domains": ["sina.com.cn"],
"link_pattern": r"https?://[\w-]+\.sina\.com\.cn/[\w/-]+/\d{4}-\d{2}-\d{2}/[\w-]+\.s?html",
},
]

- 结论:只要手动配置新闻站点可以多个一起爬取也可以指定site,操作比较灵活,但是配置比较麻烦让,手动配的不对要让AI自己配
DeepSeek V4 Pro
- 我本地环境python3.8,它使用了 3.9+版本的
list[str]语法,在自己测试的时候给改了。

- 同样的问题,配置网站不会配,让AI自己配置
# 目标新闻站点
targets:
- name: "示例新闻站"
base_url: "https://news.example.com"
# 起始URL列表
start_urls:
- "https://news.example.com/latest"
# 允许的域名
allowed_domains:
- "news.example.com"
# 文章链接匹配规则 (CSS选择器)
article_link_selector: "a[href*='/article/']"
# 下一页选择器
next_page_selector: "a.next-page"
# 文章内容提取规则
article:
title_selector: "h1.article-title"
content_selector: "div.article-content"
date_selector: "time.publish-date"
author_selector: "span.author"

- 小结:把配置文件弄成了
yaml文件比较方便配置,但目标新闻站点家配置还是那么复杂,普通人不怎么会配置。
MiniMax-M2.7
- 也是单文件完成,但是,一出来运行就报错的还是第一次遇到。

- 修改Bug后,默认爬取
news.ycombinator.com和bbc.com国外的网址直接超时,改成新浪的结果出现乱码等

- 经过几轮调试,最终正常

- 结论:虽然调试了好几次,最终效果还不错,修改其他新闻网站也方便,只要在main函数网址数组中添加一个对应网址就行。
GLM-5.1
- 单脚本一次完成,且可以直接使用,默认爬取 新浪/网易新闻,可以添加参数爬取指定网站新闻

- 测试很顺利

- 结论:用参数可以灵活方便的获取爬取的新闻网站很方便
Kimi-K2.6
- 第一次默认也是获取
news.ycombinator.com的新闻,难道和MiniMax-M2.7使用了同样的训练数据?

- 改了新浪新闻后出现了另一个问题,原因是以静态HTML方式抓取了JavaScript动态加载的新闻网站,经过几轮修正达成涉及需求。

- 结论:也是多文件模式,一个网站单独一个py配置,和Qwen的有点像,配置有点麻烦。
MiMo-V2.5-Pro
- 单脚本一次完成,默认
Hacker New,可以参数输入网址直接爬取

- 测试很顺利,一次达到要救,结果以json保存可以直接使用

总结
1. 日常问答(逻辑、数学、推理能力)
所有模型在**经典逻辑陷阱(问题一)、抽屉原理(问题三)、多条件逻辑(问题四)**、命题转换(问题五)上均接近满分,正确率100%,无明显错误。这说明2026年主流国产大模型在基础逻辑与数学能力上已非常扎实,差距不大。
**主要差异体现在问题二(时间推理歧义题)**:
- Qwen3.6-plus、GLM-5.1、Kimi-K2.6、MiMo-V2.5-Pro:输出“周三、周日”两种可能,更全面地识别歧义,类似“聪明人”思考,广度更好。
- DeepSeek V4 Pro:执着单路径,输出“周日”,思考时间长达4分钟,输出Token高达9279,显示其深度链式推理能力极强,但可能牺牲广度,容易陷入较深但不够发散的思考。
- MiniMax-M2.7:也偏向单答案(周日),整体表现中等。
小结:逻辑基础大家都很强;Qwen、Kimi、GLM 在开放/歧义问题上更灵活;DeepSeek 深度思考能力突出,但耗时耗Token明显。
2. 日常文档处理(总结GitHub Release日志)
6个模型总结质量都不错,差异主要在全面性 vs 简洁性 vs 结构化:
- DeepSeek V4 Pro:内容最全面详尽,覆盖几乎所有更新点和注意事项,实用性强。
- Kimi-K2.6:组织逻辑严谨、语言流畅,亮点与注意事项权重平衡最好,阅读体验佳。
- Qwen3.6-plus:结构化最清晰,按模块分类,适合快速查阅。
- GLM-5.1:信息量最大,包含提交统计和大量细节(甚至表格),深度最好,但输出较长。
- MiniMax-M2.7:最简洁干练,重点突出核心亮点和Breaking Changes,适合快速浏览。
- MiMo-V2.5-Pro:最精炼概括,适合不想看长文的用户,但细节相对较少。
推荐:需要全面实用 → DeepSeek;需要平衡好读 → Kimi-K2.6;需要快速概览 → MiniMax 或 MiMo。
3. Hermes搜索与RAG能力(指定博客站内检索)
这是本次测试中差异最大的维度(详见您之前提供的详细策略):
- Kimi-K2.6:绝对最优。仅6次调用、12万输入Token,直接用web_search + site: 参数,关键词处理灵活(“WPS 表格 时间戳 转时间”合理分割),两个问题都高效找到。效率碾压。
- Qwen3.6-plus:优秀。先抓近期文章(问题1),再站内搜索解决旧文章(问题2),策略清晰。
- DeepSeek V4 Pro:良好。主页找问题1,站内搜索+JS提取解决问题2,但缓存Token很高,说明中间重复工作较多。
- GLM-5.1:顽强但低效。站内搜索失败后尝试多种路径,最后靠网站地图 + web_extract 翻盘,调用31次。
- MiMo-V2.5-Pro:最笨重。调用34次、输入128万Token,先关键词失败、再首页、再extract、再站内搜索,最终完成,但极其浪费。
- MiniMax-M2.7:最弱。只找到近期问题1,旧文章未找到。站内搜索失败,site: 搜索时关键词空格敏感(“WPS表格” vs “WPS 表格”),未能有效处理较旧内容。
核心洞察:Kimi 在工具调用策略和关键词智能处理上领先明显;MiniMax 对站内/旧内容检索能力较弱;GLM 和 MiMo 能成但路径太绕、成本高。
4. 编程能力(从零设计带去重、增量、异常处理的新闻爬虫)
- GLM-5.1:最佳之一。单脚本一次完成(0次手动修正),默认支持新浪/网易,可参数灵活指定网站,测试顺利。稳定性强。
- MiMo-V2.5-Pro:一次完成,单脚本,默认Hacker News,可参数输入网址,以JSON保存,顺利。
- Qwen3.6-plus:一次完成核心功能,但需手动配置新闻站点(AI后来帮配了新浪),还补写了查询脚本,灵活但配置门槛稍高。
- DeepSeek V4 Pro:13次调用完成,用YAML配置(方便但复杂),本地Python版本小问题需改,配置站点仍较麻烦。
- Kimi-K2.6:17次调用,默认国外站点,JS动态加载问题需多轮修正(4次手动),多文件模式,配置稍麻烦。
- MiniMax-M2.7:Bug最多(6次手动修正),国外站点超时/乱码,调试后可用,但初始稳定性最差。
小结:GLM-5.1 在一次完成率和易用性上最突出;DeepSeek 和 Qwen 全面性好但配置稍复杂;MiniMax 调试负担最重;Kimi 对JS动态内容处理需额外努力。
综合优劣对比总结
- Kimi-K2.6:综合最均衡高效。搜索RAG能力遥遥领先(调用最少、策略最聪明),文档总结阅读体验佳,问答灵活,编程虽需修正但最终可用。最大优势是工具调用智能和效率,适合需要频繁搜索、快速总结的日常使用。
- Qwen3.6-plus:稳定全面型。各维度表现均衡,问答灵活、文档结构好、搜索优秀、编程灵活。无明显短板,适合通用场景。
- DeepSeek V4 Pro:深度与全面型。文档最详尽,推理深度强(虽有时耗时),搜索能完成但效率一般,编程配置化强。适合需要极致全面信息或复杂推理的任务,但Token消耗和思考时间有时较高。
- GLM-5.1):顽强稳定型。编程一次完成率最高,搜索能“死磕”到底最终成功,文档信息量大。Agentic / 长任务稳定性突出,但搜索路径太绕、调用次数多。
- MiMo-V2.5-Pro:精炼但低效。文档最简洁,编程一次完成,搜索能成但Token消耗最高(最浪费)。适合追求简短输出,但整体效率需提升。
- MiniMax-M2.7:简洁但短板明显。文档适合快速浏览,逻辑基础好,但搜索RAG能力最弱(尤其旧内容),编程Bug最多、调试负担重。性价比可能较高(如果价格低),但稳定性需注意。
**总体推荐(基于您的测试)**:
- 最佳全能:Kimi-K2.6(效率王,尤其搜索场景)
- 最佳编程/稳定:GLM-5.1
- 最佳深度/全面:DeepSeek V4 Pro
- 最均衡无短板:Qwen3.6-plus
如果您主要使用场景是站内/网页搜索 + 文档总结,优先Kimi;如果重编程开发,优先GLM或DeepSeek;预算/速度敏感可再看实际Token价格。
评论区