重点观察字段
抓取日志要看 User-Agent、访问 URL、HTTP 状态码、访问时间、响应耗时和复访频次。百度蜘蛛、Googlebot、Bingbot、360Spider、Sogou Spider、神马蜘蛛要分开统计。
常见问题
如果蜘蛛访问很多但不收录,通常要检查页面质量、重复度和站点结构。如果完全没有蜘蛛访问,则要检查入口、robots、sitemap 和服务器响应。
如何调整节奏
抓取稳定后再扩大 URL 数量。若大量 URL 返回 404、403 或 5xx,应该先暂停分发,修复站点问题后再继续。