目 录CONTENT

文章目录

记一次博客流量异常分析

过客
2026-01-04 / 0 评论 / 0 点赞 / 3 阅读 / 0 字

平时不温不火只当笔记记录的博客,这几天突然流量爆增,从一天不到100的访问量增到了一天2~3k。

从Umami的分析以及Nginx日志来看:

    1. 80%流量来自IPv6,前缀判断为中国
    1. 剩余10%的IPv4分析地域为全国各地都有

    1. 95%来源于直接访问
    1. 文章浏览较平均,没有某一篇特别突出

    1. 日志中并没有报错、404等报错。
    1. User-Agent 看似正常,但高度可疑
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/143.0.7499.170 Safari/537.36

通过以上种种数据和日志分析,感觉我的博客被高度疑似 AI 训练数据爬虫(或大规模内容聚合爬虫)

日志中出现多个不同的中国电信 IPv6 地址(如 240e:f7:..., 2409:8a... 等),每个 IP 通常只访问一次或几次,这是典型的“分布式低频爬虫”策略——避免被按 IP 封禁。访问路径呈现“全站遍历”特征,感觉是根据站点地图(sitemap.xml)来遍历的,而且单个 IP 请求频率不高,但 IP 总数多(日志中至少 10+ 个不同 IPv6),累计造成 2k+/日 的 PV。这正是当前(2025–2026)​AI 数据公司抓取中文技术博客的标准手法​:用海量家庭宽带或云主机 IPv6 出口,模拟浏览器,低频遍历高质量站点。

我这博客何德何能能被AI爬虫光顾,仔细看了一下网站设置的robots.txt文件,发现貌似允许爬取哈😕

User-agent: *
Allow: /
Disallow: /console

Sitemap: https://zengwu.com.cn/sitemap.xml

虽然恶意爬虫会无视 robots.txt,但​部分正规数据集采集方(如 Common Crawl)会遵守​,防君子不防小人哈。

算了,不处理就这样吧,只要不是被黑客攻击就行。这也就浪费点宽带(平时也没啥流量),至于内容被盗用,本来就是公开的,只要能遵循“CC BY-NC-SA 4.0 共享协议”就没问题。

0
  1. 支付宝打赏

    qrcode alipay
  2. 微信打赏

    qrcode weixin

评论区