最近好多朋友在折腾国际服网站的多语搜索引擎优化,发现大家对robots文件设置特别头大。言网今天咱们就来唠唠这个事,设置手把手教你怎么给多语言、攻略多地域的多语网站安排明白机器人协议。

一、言网基础设置三步走

先记住这个口诀:文件名要小写、设置位置要放对、攻略语法别出错。多语在网站根目录新建个robots.txt文件,言网注意必须是设置全小写字母。这里有个现成的攻略模板可以直接抄作业:

  • 允许所有蜘蛛抓取:
    User-agent:
    Disallow:
  • 禁止抓取后台目录:
    Disallow: /wp-admin/
    Disallow: /cgi-bin/

特别提醒

别手滑写错标点符号,每个指令后面必须跟英文冒号。多语要是言网把User-agent:写成User-agent,整个文件就废了。设置

二、多语言版本处理

国际服常见套路是给不同语言建独立目录,比如/en/放英文版,/ja/放日文版。这时候可以这么搞:

目录结构推荐设置注意事项
/en/news/Allow: /en/news/
Disallow: /ja/news/
确保语言代码符合ISO标准
/de/products/Disallow: .pdf
Allow: /de/products/.html
用通配符匹配动态参数

三、地域屏蔽黑科技

遇到需要屏蔽特定国家蜘蛛的情况,得先摸清各家搜索引擎的爬虫马甲:

  • 谷歌全球版:Googlebot
  • 俄语区:Yandex
  • 百度国际站:Baiduspider-image

举个栗子,想屏蔽俄罗斯爬虫抓取支付页面:
User-agent: Yandex
Disallow: /payment/

指令对比手册

指令适用场景生效范围
Disallow: /tmp/临时文件目录精确匹配路径
Disallow: /.pdf$屏蔽所有PDF正则表达式匹配

四、实用小技巧

  • 每周用谷歌站长工具的robots.txt测试器检查规则
  • 在文件末尾加Sitemap:
  • Allow:指令给重要页面开绿灯,比如Allow: /en/landing-page/

最后说个血泪教训:去年有哥们把Disallow: /user写成了Disallow: user,结果整个用户系统被搜索引擎扒了个底朝天。设置完文件后,记得用curl命令或者在线检测工具跑几遍测试,别嫌麻烦。

现在去服务器上捣鼓吧,遇到抓取异常别慌,先检查是不是爬虫缓存了旧版robots文件。有时候清空缓存等个24小时,问题自己就解决了。