记一次博客流量异常分析-过客

平时不温不火只当笔记记录的博客，这几天突然流量爆增，从一天不到100的访问量增到了一天2~3k。

从Umami的分析以及Nginx日志来看：

1. 80%流量来自IPv6，前缀判断为中国
1. 剩余10%的IPv4分析地域为全国各地都有

1. 95%来源于直接访问
1. 文章浏览较平均，没有某一篇特别突出

1. 日志中并没有报错、404等报错。
1. User-Agent 看似正常，但高度可疑

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/143.0.7499.170 Safari/537.36

通过以上种种数据和日志分析，感觉我的博客被高度疑似 AI 训练数据爬虫（或大规模内容聚合爬虫）。

日志中出现多个不同的中国电信 IPv6 地址（如 240e:f7:..., 2409:8a... 等），每个 IP 通常只访问一次或几次，这是典型的“分布式低频爬虫”策略——避免被按 IP 封禁。访问路径呈现“全站遍历”特征，感觉是根据站点地图（sitemap.xml）来遍历的，而且单个 IP 请求频率不高，但 IP 总数多（日志中至少 10+ 个不同 IPv6），累计造成 2k+/日的 PV。这正是当前（2025–2026）AI 数据公司抓取中文技术博客的标准手法：用海量家庭宽带或云主机 IPv6 出口，模拟浏览器，低频遍历高质量站点。

我这博客何德何能能被AI爬虫光顾，仔细看了一下网站设置的robots.txt文件，发现貌似允许爬取哈😕

User-agent: *
Allow: /
Disallow: /console

Sitemap: https://zengwu.com.cn/sitemap.xml

虽然恶意爬虫会无视 robots.txt，但部分正规数据集采集方（如 Common Crawl）会遵守，防君子不防小人哈。

算了，不处理就这样吧，只要不是被黑客攻击就行。这也就浪费点宽带（平时也没啥流量），至于内容被盗用，本来就是公开的，只要能遵循“CC BY-NC-SA 4.0 共享协议”就没问题。

目录CONTENT

记一次博客流量异常分析

评论区