你的忙 . 我来帮,企业服务就找沃来邦 400-8088-004 13681623698(微信同号) 281243553
小程序
微信扫一扫打开小程序
微信扫码打开小程序
公众号
微信扫一扫关注我们
微信扫码关注沃来邦
您现在的位置:首页 > 基础知识
基础知识
今日头条
政策法规
艺术视界
创业路上
经营管理
销售技巧
财税政策
品牌中国
电商运营
人物对话
财经
教育
科技
文旅
体育
健康
商标服务
版权登记
软件著作权
专利申请
网站建设
品牌设计
400电话办理
企业邮箱
商品条形码
企业认证
公司注册
短信群发
店铺专修


专员联系方式
联系人:
电话:13681623698
邮箱:

全面解读BaiduSpider与站点死链

作者:eycms 日期:2016-11-12 12:34:01 人气:41

问:robots屏蔽对阻止百度抓取死链是否有效

答:当然有效,百度严格遵守robots协议,若发现百度依然抓取,先确认是否为Baiduspider,若确认,可以通过反馈中心进行投诉。

如何正确识别Baiduspider移动ua?

新版移动ua:

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;)AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 MobileSafari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

PC ua:

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

之前通过“+http://www.baidu.com/search/spider.html”进行识别的网站请注意!您需要修改识别方式,新的正确的识别Baiduspider移动ua的方法如下:  

1. 通过关键词“Android”或者“Mobile”来进行识别,判断为移动访问或者抓取。  

2. 通过关键词“Baiduspider/2.0”,判断为百度爬虫。

另外需要强调的是,对于robots封禁,如果封禁的agent是Baiduspider,会对PC和移动同时生效。即,无论是PC还是移动Baiduspider,都不会对封禁对象进行抓取。之所以要强调这一点,是发现有些代码适配站点(同一个url,PC ua打开的时候是PC页,移动ua打开的时候是移动页),想通过设置robots的agent封禁达到只让移动Baiduspider抓取的目的,但由于PC和移动Baiduspider的agent都是Baiduspider,这种方法是非常不可取的。

如何识别为百度spider?

百度蜘蛛对于站长来说可谓上宾,可是我们曾经遇到站长这样提问:我们如何判断疯狂抓我们网站内容的蜘蛛是不是百度的?其实站长可以通过DNS反查IP的方式判断某只spider是否来自百度搜索引擎。根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:

1、在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

2、在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

3、 在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

问:已被百度抓取的死链,可以通过robots屏蔽的方式让百度删除吗?

答:不建议你这样做,最快最有效的方法是通过百度站长平台死链提交工具(地址:http://zhanzhang.baidu.com/badlink/)进行处理

问:我已经通过死链工具进行提交了,可是通过日志发现百度还是在抓我们的死链

答:您提交规则后,spider为了验证链接是否真的死掉,需要抓一部分回来验证。

问:百度对死链的抓取,对正常文章抓取的影响会有多大。

答:这个没有统一的标准,如果你没有设置robots也没有向百度提交,死链量还特别巨大的时候,有可能会占用你网站大量抓取配额,导致正常内容无法抓取。如果仅仅是spider为了验证死链规则抓一部分,那么对正常内容不会造成影响。

问:百度对死链的要求是什么?怎么设置死链效果最好?

答:目前百度支持协议死链、内容死链和跳转死链,其中最效果最好的是协议死链。

百度标准死链官方文档:

几乎所有网站都会出现不再需要展现的网页,如何处理这样的网页也成为站长经常谈论的话题。为此,百度站长学院专访了负责死链识别处理的工程师,了解到百度眼中的死链其实包括三种:协议死链、内容死链、跳转死链,每种都有门道哦,同时了解到目前比较流行的“个性化死链”对百度并不友好(后面会有详细介绍)。在此我们向各位站长呼吁,尽可能全面地通过百度站长平台死链提交工具提交协议死链、内容死链和跳转死链,网站在百度搜索引擎的可访性和价值得到提升,以获得更高的用户评价。

第一,协议死链:  

协议死链是指通过HTTP协议状态码明确表示网页已无阅读价值。HTTP协议状态码很多,但百度协议死链首推404,即未找到文件。请尽量不要用其它状态码来代表死链。

第二,内容死链:  

内容死链主要是由网站自身变化引起的,网页可以正常打开未发生跳转,但页面内容对爬虫来说没有收录价值,对用户来说也没有参考价值,如帖子被删除、内容已转移、空间被关闭、信息已过期、交易已关闭等。在这样无有价值信息的网页上,网站应该在明显位置直接给予提示文字,如:  

页面不存在(网页不存在)  

内容已转移  

帖子已删除  

域名过期或出售  

空间被关闭  

网站要备案  

信息已过期  

交易已关闭

第三,跳转死链  

跳转死链是指网站将无阅读价值的页面统一跳转到某一个页面,如前一级目录面、首页等等,跳转前后的两个网页主体内容不同,不存在可替代的关系。除了404协议死链和内容死链外,站长还需要向百度提交跳转死链。



旗下网站:创意库 - 沃来邦企业店 - 400电话

声明:本网站中所使用到的其他各种版权内容,包括但不限于文章、图片、视频、音频、字体等内容版权归原作者所有,如权利所有人发现,请及时告知,以便我们删除版权内容

Copyright © 2024 - 2025 沃来邦 All Right Reserved 备案号:沪ICP备10208712号-4 RSS订阅

回到顶部
咨询热线:
400-8088-004
13681623698
QQ在线:
QQ在线咨询!
旺旺在线:

点击联系我

旺旺在线咨询

微信公众号:
小程序:
扫一扫加微信: