目 录CONTENT

文章目录

国内大厂旗舰模型实测

过客
2026-04-30 / 0 评论 / 1 点赞 / 3 阅读 / 0 字

最近国内各大厂商的旗舰模型更新了,下面实际测试一下 Qwen3.6-plus、DeepSeek V4 Pro、GLM-5.1、MiniMax-M2.7、Kimi-K2.6、MiMo-V2.5-Pro 这些模型在 日常问答日常文档处理Hermes 搜索与 RAG 能力编程能力方面做实际测试。

模型来源

模型 提供商
Qwen3.6-plus 阿里百炼
DeepSeek V4 Pro DeepSeek
MiniMax-M2.7 MiniMax
GLM-5.1 火山引擎
Kimi-K2.6 火山引擎
MiMo-V2.5-Pro OpenRouter

所有模型接入New-API中转,消耗Token量、请求次数都以New-API日志显示为准。

测试方案

  • Open WebUI:每次问答都创建新对话
  • Hermes Agent:避免记忆等不确定因素干扰,Hermes安装在PVE中,测试前创建了快照还原点,每做一个模型测试,还原快照。
  • OpenCode:每个模型单独创建独立项目,互不干扰。

1. 问答

  • 测试工具:Open WebUI
  • 测试目标:多步推理、逻辑陷阱、数学能力
  • 测试题目:简单问题就算了,直接上点有难度的

问题一:逻辑陷阱,能否识别无效推理,拒绝回答。

问:一条船上有75头羊,32只鸡,问船长年龄?

模型 输入Token 输出Token 思考时间 答案
Qwen3.6-plus 27 691 10秒 无法确定。
DeepSeek V4 Pro 19 175 3秒 无法确定。
MiniMax-M2.7 55 703 14秒 不知道,或者直接说“这道题没有解”
GLM-5.1 21 907 27秒 无法根据已知条件得出船长的年龄
Kimi-K2.6 22 302 5秒 无法得知船长的年龄
MiMo-V2.5-Pro 77 443 5秒 这道题没有答案

问题二:时间推理,时间概念的多维度转换

问:如果昨天是明天就好了,这样今天就是周五了。今天是周几?

这题应该有歧义,看怎么想,反正我是没弄灵情答案是啥,大家看AI分析自己判断谁对谁错吧。

模型 输入Token 输出Token 思考时间 答案
Qwen3.6-plus 26 2681 42秒 周三、周日
DeepSeek V4 Pro 20 9279 4分钟 周日
MiniMax-M2.7 56 3831 1分钟 周日
GLM-5.1 22 1245 22秒 周三、周日
Kimi-K2.6 23 5537 3分钟 周三、周日
MiMo-V2.5-Pro 76 5908 2分钟 周三、周日

问题三:数学抽屉原理

问:一个盒子里有10个红球和10个蓝球,闭眼随机取球。至少取多少次才能保证一定有2个同色球?

模型 输入Token 输出Token 思考时间 答案
Qwen3.6-plus 43 754 12秒 至少取 3次
DeepSeek V4 Pro 36 219 4秒 至少需要取 3 次
MiniMax-M2.7 73 758 11秒 3 次
GLM-5.1 40 1107 27秒 至少取 3次 才能保证一定有2个同色球
Kimi-K2.6 36 503 8秒 至少取 3 次才能保证一定有 2 个同色球
MiMo-V2.5-Pro 95 386 1秒 至少取 3 次,就能保证一定有 2 个同色球

问题四:多条件逻辑推理

问:甲、乙、丙三人中有一人说了真话。甲说:乙在说谎。乙说:丙在说谎。丙说:甲和乙都在说谎。谁说真话?

模型 输入Token 输出Token 思考时间 答案
Qwen3.6-plus 50 1427 21秒 乙说真话
DeepSeek V4 Pro 44 610 14秒 乙说真话
MiniMax-M2.7 81 1624 20秒 乙说真话,甲和丙在说谎
GLM-5.1 50 1413 36秒 乙说了真话
Kimi-K2.6 45 801 16秒 乙说了真话
MiMo-V2.5-Pro 103 557 5秒 乙说了真话。 甲和丙都在说谎

问题五:命题转换与逻辑分析

问:将以下命题转为直言命题形式并判断真假:如果明天不下雨,我们就去爬山

模型 输入Token 输出Token 思考时间 答案
Qwen3.6-plus 30 2468 36秒 所有明天不下雨的情况,都是我们去爬山的情况
DeepSeek V4 Pro 24 995 31秒 所有明天不下雨的日子都是我们去爬山的日子
MiniMax-M2.7 60 1865 35秒 所有不下雨的日子都是我们去爬山的日子(丢掉了明天)
GLM-5.1 26 1711 43秒 所有明天不下雨的情况,都是我们去爬山的情况
Kimi-K2.6 27 3733 2分钟 所有明天不下雨的情况,都是我们去爬山的情况
MiMo-V2.5-Pro 81 3922 1分钟 所有明天不下雨的情况都是我们去爬山的情况

2. 日常文档处理

  • 测试工具:Open WebUI
  • 测试目标:理解、总结、转换、提取
  • 测试题目:复制 Hermes v0.11.0 releases (https://github.com/NousResearch/hermes-agent/releases/tag/v2026.4.23)更新日志内容,总结一下更新了什么,有什么需要注意的,以中文回答。

模型 输入Token 输出Token 思考时间 点评总结(个人观点,仅供参考,详细可以查看每个模型生成结果)
Qwen3.6-plus 8017 3673 44秒 总结最清晰结构化,按模块分类亮点+注意事项,条理极佳,适合快速查阅,但细节略繁
DeepSeek V4 Pro 7185 2622 52秒 内容最全面详尽,几乎覆盖所有主要更新点和注意事项,结构清晰,实用性很强。
MiniMax-M2.7 6938 904 5秒 简洁干练,重点突出核心亮点和Breaking Changes,适合想快速了解关键变更的用户。
GLM-5.1 7041 2000 1秒 信息量最大,包含提交统计、大量具体功能细节和分类表格,深度最好,但相对较长。
Kimi-K2.6 6925 2940 32秒 组织逻辑严谨、语言流畅平衡,很好地兼顾了亮点介绍与注意事项的权重,整体阅读体验佳。
MiMo-V2.5-Pro 7842 1663 16秒 总结最为精炼概括,突出核心变化和升级建议,适合不想看长文的普通用户,但细节相对较少。

Qwen3.6-plus

DeepSeek V4 Pro

MiniMax-M2.7

GLM-5.1

Kimi-K2.6

MiMo-V2.5-Pro

3. 搜索与RAG 能力

  • 测试工具:Hermes Agent,搜索引擎 Tavily
  • 测试前提:在https://zengwu.com.cn博客600多篇文章,第一个内容在2026-04-27发表博客文章,第二篇在2019-10-28发表博客文章,网站有标准的网站地图。
  • 测试问题:在https://zengwu.com.cn博客中检找到以下内容,仅在指定的博客中找:1. DeepSeek V4 Pro 官方价格多少;2. WPS表格时间戳转时间显示方法。
模型 调用次数 总输入Token 总缓存Token 总输出Token 结果
Qwen3.6-plus 18 508876 0 3945 二个问题都找到
DeepSeek V4 Pro 23 640800 613248 3935 二个问题都找到
MiniMax-M2.7 21 721511 620385 3437 找到问题1,未找到问题2
GLM-5.1 31 965960 761728 2408 二个问题都找到
Kimi-K2.6 6 124165 0 1270 二个问题都找到
MiMo-V2.5-Pro 34 1281830 1189376 4340 二个问题都找到

Qwen3.6-plus

  • 首先近期文章找到第一个问题,DeepSeekV4价格
  • 调用站内搜索,直接找到第二个问题。

DeepSeek V4 Pro

  • 主页找到问题1中DeepSeekV4价格
  • 查找wps标签,没有找到
  • 站内搜索,找到文件
  • JS提取信息

MiniMax-M2.7

  • 只从主页找到了近期文章的DeepSeekV4价格,另一个旧远文章未找到。
  • 尝试站内搜索,调用失败;
  • 尝试web_search带site 搜索,用的关键词是WPS表格,我文章中用到的WPS 表格中间有空格,没搜到;
  • 就结束了.
  • 但提供了模型给的WPS表格时间戳转时间显示方法

GLM-5.1

  • 先去博客主页找到第一篇内容;
  • 然后尝试站内搜索,调用失败;
  • 尝试分类、Tag、文章名拼音连接等都失败;
  • 最后获取网站地图检索到内容链接,再用web_extract提取

Kimi-K2.6

  • 直接使用了web_search 带 site 参数搜索二个问题;
  • 问题1,关键词搜 “DeepSeek” 搜到
  • 问题2,关键词分割了“WPS 表格 时间戳 转时间”
  • 二个问题都搜到了,然后直接提取

MiMo-V2.5-Pro

  • 调用web_search搜索,关键词不对,未搜到
  • 去首页找到了问题1的DeepSeek价格
  • 获取详细价格时被中断,调用web_extract提取完整内容
  • 获取问题1答案
  • 调用站内搜索
  • 找到相关文章,提取内容完成问题2

4. 编程能力

OpenCode创建新工程,直接输入以下对话,直接从零开始创建。

设计一个爬虫程序,爬取新闻网站时需要:
1) 去重
2) 增量爬取
3) 异常处理
给出可执行的完成代码程序
模型 首次完成调用次数 首次完成输入Token 首次完成输入缓存Token 首次完成输出Token 总输入Token 总缓存Token 总输出Token 手动修正次数 结果
Qwen3.6-plus 29 509512 0 17378 632068 0 18775 2次 一次完成,但需手动配置
DeepSeek V4 Pro 13 394919 310957 11670 495117 393152 19961 2次 yml配置,但配置文站点太复杂了
MiniMax-M2.7 26 635992 532109 9177 1705000 1540442 19627 6次 有bug调试后完成
GLM-5.1 27 694497 374272 4883 694497 374272 4883 0次 一次完成
Kimi-K2.6 17 256492 0 21726 1595662 0 38265 4次 无法爬取JavaScript新闻,调整后完成
MiMo-V2.5-Pro 24 398103 349824 9323 24 398103 349824 9323 一次完成

Qwen3.6-plus

  • 爬取程序一次完成,并按需求写入db据据库,但没有查询和显示数据的脚本。

  • 不过要手动配置爬取的新闻网站,这个不会配,让AI自己配置了一个新浪的,再写了一个查询脚本,测试基本成功 。
NEWS_SITES = [
    {
        "name": "sina_news",
        "base_url": "https://news.sina.com.cn",
        "start_urls": [
            "https://news.sina.com.cn/",
            "https://news.sina.com.cn/china/",
            "https://news.sina.com.cn/world/",
            "https://news.sina.com.cn/society/",
        ],
        "allowed_domains": ["sina.com.cn"],
        "link_pattern": r"https?://[\w-]+\.sina\.com\.cn/[\w/-]+/\d{4}-\d{2}-\d{2}/[\w-]+\.s?html",
    },
]

  • 结论:只要手动配置新闻站点可以多个一起爬取也可以指定site,操作比较灵活,但是配置比较麻烦让,手动配的不对要让AI自己配

DeepSeek V4 Pro

  • 我本地环境python3.8,它使用了 3.9+版本的list[str] 语法,在自己测试的时候给改了。

  • 同样的问题,配置网站不会配,让AI自己配置
# 目标新闻站点
targets:
  - name: "示例新闻站"
    base_url: "https://news.example.com"
    # 起始URL列表
    start_urls:
      - "https://news.example.com/latest"
    # 允许的域名
    allowed_domains:
      - "news.example.com"
    # 文章链接匹配规则 (CSS选择器)
    article_link_selector: "a[href*='/article/']"
    # 下一页选择器
    next_page_selector: "a.next-page"
    # 文章内容提取规则
    article:
      title_selector: "h1.article-title"
      content_selector: "div.article-content"
      date_selector: "time.publish-date"
      author_selector: "span.author"

  • 小结:把配置文件弄成了yaml文件比较方便配置,但目标新闻站点家配置还是那么复杂,普通人不怎么会配置。

MiniMax-M2.7

  • 也是单文件完成,但是,一出来运行就报错的还是第一次遇到。

  • 修改Bug后,默认爬取 news.ycombinator.combbc.com国外的网址直接超时,改成新浪的结果出现乱码等

  • 经过几轮调试,最终正常

  • 结论:虽然调试了好几次,最终效果还不错,修改其他新闻网站也方便,只要在main函数网址数组中添加一个对应网址就行。

GLM-5.1

  • 单脚本一次完成,且可以直接使用,默认爬取 新浪/网易新闻,可以添加参数爬取指定网站新闻

  • 测试很顺利

  • 结论:用参数可以灵活方便的获取爬取的新闻网站很方便

Kimi-K2.6

  • 第一次默认也是获取news.ycombinator.com的新闻,难道和MiniMax-M2.7使用了同样的训练数据?

  • 改了新浪新闻后出现了另一个问题,原因是以静态HTML方式抓取了JavaScript动态加载的新闻网站,经过几轮修正达成涉及需求。

  • 结论:也是多文件模式,一个网站单独一个py配置,和Qwen的有点像,配置有点麻烦。

MiMo-V2.5-Pro

  • 单脚本一次完成,默认Hacker New,可以参数输入网址直接爬取

  • 测试很顺利,一次达到要救,结果以json保存可以直接使用

总结

1. 日常问答(逻辑、数学、推理能力)

所有模型在​**经典逻辑陷阱(问题一)​、​抽屉原理(问题三)​、​多条件逻辑(问题四)**​、​命题转换(问题五)​上均接近满分,正确率100%,无明显错误。这说明2026年主流国产大模型在基础逻辑与数学能力上已非常扎实,差距不大。

​**主要差异体现在问题二(时间推理歧义题)**​:

  • Qwen3.6-plus、GLM-5.1、Kimi-K2.6、MiMo-V2.5-Pro​:输出“周三、周日”两种可能,更全面地识别歧义,类似“聪明人”思考,广度更好。
  • DeepSeek V4 Pro​:执着单路径,输出“周日”,思考时间长达4分钟,输出Token高达9279,显示其深度链式推理能力极强,但可能牺牲广度,容易陷入较深但不够发散的思考。
  • MiniMax-M2.7​:也偏向单答案(周日),整体表现中等。

小结​:逻辑基础大家都很强;Qwen、Kimi、GLM 在开放/歧义问题上更灵活;DeepSeek 深度思考能力突出,但耗时耗Token明显。

2. 日常文档处理(总结GitHub Release日志)

6个模型总结质量都不错,差异主要在​全面性 vs 简洁性 vs 结构化​:

  • DeepSeek V4 Pro​:内容最全面详尽,覆盖几乎所有更新点和注意事项,实用性强。
  • Kimi-K2.6​:组织逻辑严谨、语言流畅,亮点与注意事项权重平衡最好,阅读体验佳。
  • Qwen3.6-plus​:结构化最清晰,按模块分类,适合快速查阅。
  • GLM-5.1​:信息量最大,包含提交统计和大量细节(甚至表格),深度最好,但输出较长。
  • MiniMax-M2.7​:最简洁干练,重点突出核心亮点和Breaking Changes,适合快速浏览。
  • MiMo-V2.5-Pro​:最精炼概括,适合不想看长文的用户,但细节相对较少。

推荐​:需要全面实用 → ​DeepSeek​;需要平衡好读 → ​Kimi-K2.6​;需要快速概览 → MiniMax 或 ​MiMo​。

3. Hermes搜索与RAG能力(指定博客站内检索)

这是本次测试中差异最大的维度(详见您之前提供的详细策略):

  • Kimi-K2.6​:​绝对最优​。仅6次调用、12万输入Token,直接用web_search + site: 参数,关键词处理灵活(“WPS 表格 时间戳 转时间”合理分割),两个问题都高效找到。效率碾压。
  • Qwen3.6-plus​:优秀。先抓近期文章(问题1),再站内搜索解决旧文章(问题2),策略清晰。
  • DeepSeek V4 Pro​:良好。主页找问题1,站内搜索+JS提取解决问题2,但缓存Token很高,说明中间重复工作较多。
  • GLM-5.1​:顽强但低效。站内搜索失败后尝试多种路径,最后靠网站地图 + web_extract 翻盘,调用31次。
  • MiMo-V2.5-Pro​:最笨重。调用34次、输入128万Token,先关键词失败、再首页、再extract、再站内搜索,最终完成,但极其浪费。
  • MiniMax-M2.7​:最弱。只找到近期问题1,旧文章未找到。站内搜索失败,site: 搜索时关键词空格敏感(“WPS表格” vs “WPS 表格”),未能有效处理较旧内容。

核心洞察​:Kimi 在工具调用策略和关键词智能处理上领先明显;MiniMax 对站内/旧内容检索能力较弱;GLMMiMo 能成但路径太绕、成本高。

4. 编程能力(从零设计带去重、增量、异常处理的新闻爬虫)

  • GLM-5.1​:​最佳之一​。单脚本一次完成(0次手动修正),默认支持新浪/网易,可参数灵活指定网站,测试顺利。稳定性强。
  • MiMo-V2.5-Pro​:一次完成,单脚本,默认Hacker News,可参数输入网址,以JSON保存,顺利。
  • Qwen3.6-plus​:一次完成核心功能,但需手动配置新闻站点(AI后来帮配了新浪),还补写了查询脚本,灵活但配置门槛稍高。
  • DeepSeek V4 Pro​:13次调用完成,用YAML配置(方便但复杂),本地Python版本小问题需改,配置站点仍较麻烦。
  • Kimi-K2.6​:17次调用,默认国外站点,JS动态加载问题需多轮修正(4次手动),多文件模式,配置稍麻烦。
  • MiniMax-M2.7​:Bug最多(6次手动修正),国外站点超时/乱码,调试后可用,但初始稳定性最差。

小结​:GLM-5.1 在一次完成率和易用性上最突出;DeepSeekQwen 全面性好但配置稍复杂;MiniMax 调试负担最重;Kimi 对JS动态内容处理需额外努力。

综合优劣对比总结

  • Kimi-K2.6​:​综合最均衡高效​。搜索RAG能力遥遥领先(调用最少、策略最聪明),文档总结阅读体验佳,问答灵活,编程虽需修正但最终可用。​最大优势是工具调用智能和效率​,适合需要频繁搜索、快速总结的日常使用。
  • Qwen3.6-plus​:​稳定全面型​。各维度表现均衡,问答灵活、文档结构好、搜索优秀、编程灵活。无明显短板,适合通用场景。
  • DeepSeek V4 Pro​:​深度与全面型​。文档最详尽,推理深度强(虽有时耗时),搜索能完成但效率一般,编程配置化强。​适合需要极致全面信息或复杂推理的任务​,但Token消耗和思考时间有时较高。
  • GLM-5.1​):​顽强稳定型​。编程一次完成率最高,搜索能“死磕”到底最终成功,文档信息量大。​Agentic / 长任务稳定性突出​,但搜索路径太绕、调用次数多。
  • MiMo-V2.5-Pro​:​精炼但低效​。文档最简洁,编程一次完成,搜索能成但Token消耗最高(最浪费)。适合追求简短输出,但整体效率需提升。
  • MiniMax-M2.7​:​简洁但短板明显​。文档适合快速浏览,逻辑基础好,但搜索RAG能力最弱(尤其旧内容),编程Bug最多、调试负担重。​性价比可能较高​(如果价格低),但稳定性需注意。

​**总体推荐(基于您的测试)**​:

  • 最佳全能​:​Kimi-K2.6​(效率王,尤其搜索场景)
  • 最佳编程/稳定​:GLM-5.1
  • 最佳深度/全面​:DeepSeek V4 Pro
  • 最均衡无短板​:Qwen3.6-plus

如果您主要使用场景是​站内/网页搜索 + 文档总结​,优先Kimi;如果重​编程开发​,优先GLM或DeepSeek;预算/速度敏感可再看实际Token价格。

1
  1. 支付宝打赏

    qrcode alipay
  2. 微信打赏

    qrcode weixin

评论区