国内大厂旗舰模型实测-过客

最近国内各大厂商的旗舰模型更新了，下面实际测试一下 Qwen3.6-plus、DeepSeek V4 Pro、GLM-5.1、MiniMax-M2.7、Kimi-K2.6、MiMo-V2.5-Pro 这些模型在 日常问答、日常文档处理、Hermes 搜索与 RAG 能力、编程能力方面做实际测试。

模型来源

模型	提供商
Qwen3.6-plus	阿里百炼
DeepSeek V4 Pro	DeepSeek
MiniMax-M2.7	MiniMax
GLM-5.1	火山引擎
Kimi-K2.6	火山引擎
MiMo-V2.5-Pro	OpenRouter

所有模型接入New-API中转，消耗Token量、请求次数都以New-API日志显示为准。

测试方案

Open WebUI：每次问答都创建新对话
Hermes Agent：避免记忆等不确定因素干扰，Hermes安装在PVE中，测试前创建了快照还原点，每做一个模型测试，还原快照。
OpenCode：每个模型单独创建独立项目，互不干扰。

1. 问答

测试工具：Open WebUI
测试目标：多步推理、逻辑陷阱、数学能力
测试题目：简单问题就算了，直接上点有难度的

问题一：逻辑陷阱，能否识别无效推理，拒绝回答。

问：一条船上有75头羊，32只鸡，问船长年龄？

模型	输入Token	输出Token	思考时间	答案
Qwen3.6-plus	27	691	10秒	无法确定。
DeepSeek V4 Pro	19	175	3秒	无法确定。
MiniMax-M2.7	55	703	14秒	不知道，或者直接说“这道题没有解”
GLM-5.1	21	907	27秒	无法根据已知条件得出船长的年龄
Kimi-K2.6	22	302	5秒	无法得知船长的年龄
MiMo-V2.5-Pro	77	443	5秒	这道题没有答案

问题二：时间推理，时间概念的多维度转换

问：如果昨天是明天就好了，这样今天就是周五了。今天是周几？

这题应该有歧义，看怎么想，反正我是没弄灵情答案是啥，大家看AI分析自己判断谁对谁错吧。

模型	输入Token	输出Token	思考时间	答案
Qwen3.6-plus	26	2681	42秒	周三、周日
DeepSeek V4 Pro	20	9279	4分钟	周日
MiniMax-M2.7	56	3831	1分钟	周日
GLM-5.1	22	1245	22秒	周三、周日
Kimi-K2.6	23	5537	3分钟	周三、周日
MiMo-V2.5-Pro	76	5908	2分钟	周三、周日

问题三：数学抽屉原理

问：一个盒子里有10个红球和10个蓝球，闭眼随机取球。至少取多少次才能保证一定有2个同色球？

模型	输入Token	输出Token	思考时间	答案
Qwen3.6-plus	43	754	12秒	至少取 3次
DeepSeek V4 Pro	36	219	4秒	至少需要取 3 次
MiniMax-M2.7	73	758	11秒	3 次
GLM-5.1	40	1107	27秒	至少取 3次才能保证一定有2个同色球
Kimi-K2.6	36	503	8秒	至少取 3 次才能保证一定有 2 个同色球
MiMo-V2.5-Pro	95	386	1秒	至少取 3 次，就能保证一定有 2 个同色球

问题四：多条件逻辑推理

问：甲、乙、丙三人中有一人说了真话。甲说：乙在说谎。乙说：丙在说谎。丙说：甲和乙都在说谎。谁说真话？

模型	输入Token	输出Token	思考时间	答案
Qwen3.6-plus	50	1427	21秒	乙说真话
DeepSeek V4 Pro	44	610	14秒	乙说真话
MiniMax-M2.7	81	1624	20秒	乙说真话，甲和丙在说谎
GLM-5.1	50	1413	36秒	乙说了真话
Kimi-K2.6	45	801	16秒	乙说了真话
MiMo-V2.5-Pro	103	557	5秒	乙说了真话。甲和丙都在说谎

问题五：命题转换与逻辑分析

问：将以下命题转为直言命题形式并判断真假：如果明天不下雨，我们就去爬山

模型	输入Token	输出Token	思考时间	答案
Qwen3.6-plus	30	2468	36秒	所有明天不下雨的情况，都是我们去爬山的情况
DeepSeek V4 Pro	24	995	31秒	所有明天不下雨的日子都是我们去爬山的日子
MiniMax-M2.7	60	1865	35秒	所有不下雨的日子都是我们去爬山的日子（丢掉了明天）
GLM-5.1	26	1711	43秒	所有明天不下雨的情况，都是我们去爬山的情况
Kimi-K2.6	27	3733	2分钟	所有明天不下雨的情况，都是我们去爬山的情况
MiMo-V2.5-Pro	81	3922	1分钟	所有明天不下雨的情况都是我们去爬山的情况

2. 日常文档处理

测试工具：Open WebUI
测试目标：理解、总结、转换、提取
测试题目：复制 Hermes v0.11.0 releases （https://github.com/NousResearch/hermes-agent/releases/tag/v2026.4.23）更新日志内容，总结一下更新了什么，有什么需要注意的，以中文回答。

模型	输入Token	输出Token	思考时间	点评总结（个人观点，仅供参考，详细可以查看每个模型生成结果）
Qwen3.6-plus	8017	3673	44秒	总结最清晰结构化，按模块分类亮点+注意事项，条理极佳，适合快速查阅，但细节略繁
DeepSeek V4 Pro	7185	2622	52秒	内容最全面详尽，几乎覆盖所有主要更新点和注意事项，结构清晰，实用性很强。
MiniMax-M2.7	6938	904	5秒	简洁干练，重点突出核心亮点和Breaking Changes，适合想快速了解关键变更的用户。
GLM-5.1	7041	2000	1秒	信息量最大，包含提交统计、大量具体功能细节和分类表格，深度最好，但相对较长。
Kimi-K2.6	6925	2940	32秒	组织逻辑严谨、语言流畅平衡，很好地兼顾了亮点介绍与注意事项的权重，整体阅读体验佳。
MiMo-V2.5-Pro	7842	1663	16秒	总结最为精炼概括，突出核心变化和升级建议，适合不想看长文的普通用户，但细节相对较少。

Qwen3.6-plus

DeepSeek V4 Pro

MiniMax-M2.7

GLM-5.1

Kimi-K2.6

MiMo-V2.5-Pro

3. 搜索与RAG 能力

测试工具：Hermes Agent，搜索引擎 Tavily
测试前提：在https://zengwu.com.cn博客600多篇文章，第一个内容在2026-04-27发表博客文章,第二篇在2019-10-28发表博客文章，网站有标准的网站地图。
测试问题：在https://zengwu.com.cn博客中检找到以下内容，仅在指定的博客中找：1. DeepSeek V4 Pro 官方价格多少；2. WPS表格时间戳转时间显示方法。

模型	调用次数	总输入Token	总缓存Token	总输出Token	结果
Qwen3.6-plus	18	508876	0	3945	二个问题都找到
DeepSeek V4 Pro	23	640800	613248	3935	二个问题都找到
MiniMax-M2.7	21	721511	620385	3437	找到问题1，未找到问题2
GLM-5.1	31	965960	761728	2408	二个问题都找到
Kimi-K2.6	6	124165	0	1270	二个问题都找到
MiMo-V2.5-Pro	34	1281830	1189376	4340	二个问题都找到

Qwen3.6-plus

首先近期文章找到第一个问题，DeepSeekV4价格
调用站内搜索，直接找到第二个问题。

DeepSeek V4 Pro

主页找到问题1中DeepSeekV4价格
查找wps标签，没有找到
站内搜索，找到文件
JS提取信息

MiniMax-M2.7

只从主页找到了近期文章的DeepSeekV4价格，另一个旧远文章未找到。
尝试站内搜索，调用失败;
尝试web_search带site 搜索，用的关键词是WPS表格，我文章中用到的WPS 表格中间有空格，没搜到;
就结束了.
但提供了模型给的WPS表格时间戳转时间显示方法

GLM-5.1

先去博客主页找到第一篇内容；
然后尝试站内搜索，调用失败；
尝试分类、Tag、文章名拼音连接等都失败；
最后获取网站地图检索到内容链接，再用web_extract提取

Kimi-K2.6

直接使用了web_search 带 site 参数搜索二个问题；
问题1，关键词搜 “DeepSeek” 搜到
问题2，关键词分割了“WPS 表格时间戳转时间”
二个问题都搜到了，然后直接提取

MiMo-V2.5-Pro

调用web_search搜索，关键词不对，未搜到
去首页找到了问题1的DeepSeek价格
获取详细价格时被中断，调用web_extract提取完整内容
获取问题1答案
调用站内搜索
找到相关文章，提取内容完成问题2

4. 编程能力

在 OpenCode创建新工程，直接输入以下对话，直接从零开始创建。

设计一个爬虫程序，爬取新闻网站时需要：
1) 去重
2) 增量爬取
3) 异常处理
给出可执行的完成代码程序

模型	首次完成调用次数	首次完成输入Token	首次完成输入缓存Token	首次完成输出Token	总输入Token	总缓存Token	总输出Token	手动修正次数	结果
Qwen3.6-plus	29	509512	0	17378	632068	0	18775	2次	一次完成，但需手动配置
DeepSeek V4 Pro	13	394919	310957	11670	495117	393152	19961	2次	yml配置，但配置文站点太复杂了
MiniMax-M2.7	26	635992	532109	9177	1705000	1540442	19627	6次	有bug调试后完成
GLM-5.1	27	694497	374272	4883	694497	374272	4883	0次	一次完成
Kimi-K2.6	17	256492	0	21726	1595662	0	38265	4次	无法爬取JavaScript新闻，调整后完成
MiMo-V2.5-Pro	24	398103	349824	9323	24	398103	349824	9323	一次完成

Qwen3.6-plus

爬取程序一次完成，并按需求写入db据据库，但没有查询和显示数据的脚本。

不过要手动配置爬取的新闻网站，这个不会配，让AI自己配置了一个新浪的，再写了一个查询脚本，测试基本成功。

NEWS_SITES = [
    {
        "name": "sina_news",
        "base_url": "https://news.sina.com.cn",
        "start_urls": [
            "https://news.sina.com.cn/",
            "https://news.sina.com.cn/china/",
            "https://news.sina.com.cn/world/",
            "https://news.sina.com.cn/society/",
        ],
        "allowed_domains": ["sina.com.cn"],
        "link_pattern": r"https?://[\w-]+\.sina\.com\.cn/[\w/-]+/\d{4}-\d{2}-\d{2}/[\w-]+\.s?html",
    },
]

结论：只要手动配置新闻站点可以多个一起爬取也可以指定site，操作比较灵活，但是配置比较麻烦让，手动配的不对要让AI自己配

DeepSeek V4 Pro

我本地环境python3.8，它使用了 3.9+版本的list[str] 语法，在自己测试的时候给改了。

同样的问题，配置网站不会配，让AI自己配置

# 目标新闻站点
targets:
  - name: "示例新闻站"
    base_url: "https://news.example.com"
    # 起始URL列表
    start_urls:
      - "https://news.example.com/latest"
    # 允许的域名
    allowed_domains:
      - "news.example.com"
    # 文章链接匹配规则 (CSS选择器)
    article_link_selector: "a[href*='/article/']"
    # 下一页选择器
    next_page_selector: "a.next-page"
    # 文章内容提取规则
    article:
      title_selector: "h1.article-title"
      content_selector: "div.article-content"
      date_selector: "time.publish-date"
      author_selector: "span.author"

小结：把配置文件弄成了yaml文件比较方便配置，但目标新闻站点家配置还是那么复杂，普通人不怎么会配置。

MiniMax-M2.7

也是单文件完成，但是，一出来运行就报错的还是第一次遇到。

修改Bug后，默认爬取 news.ycombinator.com和bbc.com国外的网址直接超时，改成新浪的结果出现乱码等

经过几轮调试，最终正常

结论：虽然调试了好几次，最终效果还不错，修改其他新闻网站也方便，只要在main函数网址数组中添加一个对应网址就行。

GLM-5.1

单脚本一次完成，且可以直接使用，默认爬取新浪/网易新闻，可以添加参数爬取指定网站新闻

测试很顺利

结论：用参数可以灵活方便的获取爬取的新闻网站很方便

Kimi-K2.6

第一次默认也是获取news.ycombinator.com的新闻，难道和MiniMax-M2.7使用了同样的训练数据？

改了新浪新闻后出现了另一个问题，原因是以静态HTML方式抓取了JavaScript动态加载的新闻网站，经过几轮修正达成涉及需求。

结论：也是多文件模式，一个网站单独一个py配置，和Qwen的有点像，配置有点麻烦。

MiMo-V2.5-Pro

单脚本一次完成，默认Hacker New，可以参数输入网址直接爬取

测试很顺利，一次达到要救，结果以json保存可以直接使用

总结

1. 日常问答（逻辑、数学、推理能力）

所有模型在**经典逻辑陷阱（问题一）、抽屉原理（问题三）、多条件逻辑（问题四）**、命题转换（问题五）上均接近满分，正确率100%，无明显错误。这说明2026年主流国产大模型在基础逻辑与数学能力上已非常扎实，差距不大。

**主要差异体现在问题二（时间推理歧义题）**：

Qwen3.6-plus、GLM-5.1、Kimi-K2.6、MiMo-V2.5-Pro：输出“周三、周日”两种可能，更全面地识别歧义，类似“聪明人”思考，广度更好。
DeepSeek V4 Pro：执着单路径，输出“周日”，思考时间长达4分钟，输出Token高达9279，显示其深度链式推理能力极强，但可能牺牲广度，容易陷入较深但不够发散的思考。
MiniMax-M2.7：也偏向单答案（周日），整体表现中等。

小结：逻辑基础大家都很强；Qwen、Kimi、GLM 在开放/歧义问题上更灵活；DeepSeek 深度思考能力突出，但耗时耗Token明显。

2. 日常文档处理（总结GitHub Release日志）

6个模型总结质量都不错，差异主要在全面性 vs 简洁性 vs 结构化：

DeepSeek V4 Pro：内容最全面详尽，覆盖几乎所有更新点和注意事项，实用性强。
Kimi-K2.6：组织逻辑严谨、语言流畅，亮点与注意事项权重平衡最好，阅读体验佳。
Qwen3.6-plus：结构化最清晰，按模块分类，适合快速查阅。
GLM-5.1：信息量最大，包含提交统计和大量细节（甚至表格），深度最好，但输出较长。
MiniMax-M2.7：最简洁干练，重点突出核心亮点和Breaking Changes，适合快速浏览。
MiMo-V2.5-Pro：最精炼概括，适合不想看长文的用户，但细节相对较少。

推荐：需要全面实用 → DeepSeek；需要平衡好读 → Kimi-K2.6；需要快速概览 → MiniMax 或 MiMo。

3. Hermes搜索与RAG能力（指定博客站内检索）

这是本次测试中差异最大的维度（详见您之前提供的详细策略）：

Kimi-K2.6：绝对最优。仅6次调用、12万输入Token，直接用web_search + site: 参数，关键词处理灵活（“WPS 表格时间戳转时间”合理分割），两个问题都高效找到。效率碾压。
Qwen3.6-plus：优秀。先抓近期文章（问题1），再站内搜索解决旧文章（问题2），策略清晰。
DeepSeek V4 Pro：良好。主页找问题1，站内搜索+JS提取解决问题2，但缓存Token很高，说明中间重复工作较多。
GLM-5.1：顽强但低效。站内搜索失败后尝试多种路径，最后靠网站地图 + web_extract 翻盘，调用31次。
MiMo-V2.5-Pro：最笨重。调用34次、输入128万Token，先关键词失败、再首页、再extract、再站内搜索，最终完成，但极其浪费。
MiniMax-M2.7：最弱。只找到近期问题1，旧文章未找到。站内搜索失败，site: 搜索时关键词空格敏感（“WPS表格” vs “WPS 表格”），未能有效处理较旧内容。

核心洞察：Kimi 在工具调用策略和关键词智能处理上领先明显；MiniMax 对站内/旧内容检索能力较弱；GLM 和 MiMo 能成但路径太绕、成本高。

4. 编程能力（从零设计带去重、增量、异常处理的新闻爬虫）

GLM-5.1：最佳之一。单脚本一次完成（0次手动修正），默认支持新浪/网易，可参数灵活指定网站，测试顺利。稳定性强。
MiMo-V2.5-Pro：一次完成，单脚本，默认Hacker News，可参数输入网址，以JSON保存，顺利。
Qwen3.6-plus：一次完成核心功能，但需手动配置新闻站点（AI后来帮配了新浪），还补写了查询脚本，灵活但配置门槛稍高。
DeepSeek V4 Pro：13次调用完成，用YAML配置（方便但复杂），本地Python版本小问题需改，配置站点仍较麻烦。
Kimi-K2.6：17次调用，默认国外站点，JS动态加载问题需多轮修正（4次手动），多文件模式，配置稍麻烦。
MiniMax-M2.7：Bug最多（6次手动修正），国外站点超时/乱码，调试后可用，但初始稳定性最差。

小结：GLM-5.1 在一次完成率和易用性上最突出；DeepSeek 和 Qwen 全面性好但配置稍复杂；MiniMax 调试负担最重；Kimi 对JS动态内容处理需额外努力。

综合优劣对比总结

Kimi-K2.6：综合最均衡高效。搜索RAG能力遥遥领先（调用最少、策略最聪明），文档总结阅读体验佳，问答灵活，编程虽需修正但最终可用。最大优势是工具调用智能和效率，适合需要频繁搜索、快速总结的日常使用。
Qwen3.6-plus：稳定全面型。各维度表现均衡，问答灵活、文档结构好、搜索优秀、编程灵活。无明显短板，适合通用场景。
DeepSeek V4 Pro：深度与全面型。文档最详尽，推理深度强（虽有时耗时），搜索能完成但效率一般，编程配置化强。适合需要极致全面信息或复杂推理的任务，但Token消耗和思考时间有时较高。
GLM-5.1）：顽强稳定型。编程一次完成率最高，搜索能“死磕”到底最终成功，文档信息量大。Agentic / 长任务稳定性突出，但搜索路径太绕、调用次数多。
MiMo-V2.5-Pro：精炼但低效。文档最简洁，编程一次完成，搜索能成但Token消耗最高（最浪费）。适合追求简短输出，但整体效率需提升。
MiniMax-M2.7：简洁但短板明显。文档适合快速浏览，逻辑基础好，但搜索RAG能力最弱（尤其旧内容），编程Bug最多、调试负担重。性价比可能较高（如果价格低），但稳定性需注意。

**总体推荐（基于您的测试）**：

最佳全能：Kimi-K2.6（效率王，尤其搜索场景）
最佳编程/稳定：GLM-5.1
最佳深度/全面：DeepSeek V4 Pro
最均衡无短板：Qwen3.6-plus

如果您主要使用场景是站内/网页搜索 + 文档总结，优先Kimi；如果重编程开发，优先GLM或DeepSeek；预算/速度敏感可再看实际Token价格。

目录CONTENT

国内大厂旗舰模型实测

模型来源

测试方案

1. 问答

问题一：逻辑陷阱，能否识别无效推理，拒绝回答。

问题二：时间推理，时间概念的多维度转换

问题三：数学抽屉原理

问题四：多条件逻辑推理

问题五：命题转换与逻辑分析

2. 日常文档处理

Qwen3.6-plus

DeepSeek V4 Pro

MiniMax-M2.7

GLM-5.1

Kimi-K2.6

MiMo-V2.5-Pro

3. 搜索与RAG 能力

Qwen3.6-plus

DeepSeek V4 Pro

MiniMax-M2.7

GLM-5.1

Kimi-K2.6

MiMo-V2.5-Pro

4. 编程能力

Qwen3.6-plus

DeepSeek V4 Pro

MiniMax-M2.7

GLM-5.1

Kimi-K2.6

MiMo-V2.5-Pro

总结

1. 日常问答（逻辑、数学、推理能力）

2. 日常文档处理（总结GitHub Release日志）

3. Hermes搜索与RAG能力（指定博客站内检索）

4. 编程能力（从零设计带去重、增量、异常处理的新闻爬虫）

综合优劣对比总结

评论区