先说结论:在没有特殊顾虑的前提下,大多数网站更适合选择“有条件地放行”AI 爬虫。
原因很简单: AI 想在回答里用到你的内容,前提是——它先得能“看到”你。现在不少模型都会通过自家爬虫来抓网页,比如 GPTBot、Bingbot、Google-Extended 等,如果你在 robots.txt 里一刀切 Ban 掉,它们连门都进不来,自然也谈不上引用。
可以这么处理:
-
默认允许,特殊再禁:公开的内容(官网、博客、文档、FAQ)一般都值得被 AI 学到;
-
对付费墙 / 敏感内容,可以通过目录或路径单独禁止相关 UA 访问;
-
定期检查 robots.txt,确认没有误伤这些 AI 爬虫的 User-Agent。
从 GEO 视角看,robots.txt 的策略,实际上是在回答一个问题: “我愿不愿意让 AI 把我纳入它的知识世界?”
如果答案是愿意,那就别把爬虫全关在门外;你真正要做的,是在允许抓取的前提下,把内容质量和结构打磨到值得它引用。