最近好多朋友在折腾国际服网站的多语搜索引擎优化,发现大家对robots文件设置特别头大。言网今天咱们就来唠唠这个事,设置手把手教你怎么给多语言、攻略多地域的多语网站安排明白机器人协议。
一、言网基础设置三步走
先记住这个口诀:文件名要小写、设置位置要放对、攻略语法别出错。多语在网站根目录新建个robots.txt文件,言网注意必须是设置全小写字母。这里有个现成的攻略模板可以直接抄作业:
- 允许所有蜘蛛抓取:
User-agent:
Disallow: - 禁止抓取后台目录:
Disallow: /wp-admin/
Disallow: /cgi-bin/
特别提醒
别手滑写错标点符号,每个指令后面必须跟英文冒号。多语要是言网把User-agent:
写成User-agent
,整个文件就废了。设置
二、多语言版本处理
国际服常见套路是给不同语言建独立目录,比如/en/
放英文版,/ja/
放日文版。这时候可以这么搞:
目录结构 | 推荐设置 | 注意事项 |
/en/news/ | Allow: /en/news/ Disallow: /ja/news/ | 确保语言代码符合ISO标准 |
/de/products/ | Disallow: .pdf Allow: /de/products/.html | 用通配符匹配动态参数 |
三、地域屏蔽黑科技
遇到需要屏蔽特定国家蜘蛛的情况,得先摸清各家搜索引擎的爬虫马甲:
- 谷歌全球版:Googlebot
- 俄语区:Yandex
- 百度国际站:Baiduspider-image
举个栗子,想屏蔽俄罗斯爬虫抓取支付页面:User-agent: Yandex
Disallow: /payment/
指令对比手册
指令 | 适用场景 | 生效范围 |
Disallow: /tmp/ | 临时文件目录 | 精确匹配路径 |
Disallow: /.pdf$ | 屏蔽所有PDF | 正则表达式匹配 |
四、实用小技巧
- 每周用谷歌站长工具的robots.txt测试器检查规则
- 在文件末尾加
Sitemap:
- 用
Allow:
指令给重要页面开绿灯,比如Allow: /en/landing-page/
- 用
最后说个血泪教训:去年有哥们把Disallow: /user
写成了Disallow: user
,结果整个用户系统被搜索引擎扒了个底朝天。设置完文件后,记得用curl命令或者在线检测工具跑几遍测试,别嫌麻烦。
现在去服务器上捣鼓吧,遇到抓取异常别慌,先检查是不是爬虫缓存了旧版robots文件。有时候清空缓存等个24小时,问题自己就解决了。