√ 还有一种情况,是网页中的HTML代码有误,导致百度无法解析出摘要,所以有时大家会看到某些结果的摘要是乱码(当然这种情况很少见),所以也请站长注意代码规范。 3.2.1.2 主体内容 主体内容注意两个点,一个主体内容过长(通常网页源码长度不能超过128k),文章过长可能会引起抓取截断;另外一个是注意内容不能空短,空短内容也会被判断为无价值内容。 以下分析两个示例: 关于主体内容过长的示例分析: 某网站主体内容都是JS生成,针对用户访问,没有做优化;但是网站特针对爬虫抓取做了优化,直接将图片进行base64 编码推送给百度,然而优化后发现内容没有被百度展示出来 页面质量很好,还特意针对爬虫做了优化,为什么内容反而无法出现在百度搜索中 分析主要有以下原因: √ 网站针对爬虫爬取做的优化,是直接将图片base64 编码后放到HTML中,导致页面长度过长,网站页面长度达164k; √ 站点优化后将主体内容放于最后,图片却放于前面; √ 爬虫抓取内容后,页面内容过长被截断,已抓取部分无法识别到主体内容,最终导致页面被认定为空短而不建索引。 这样的情况给到以下建议: √ 如站点针对爬虫爬取做优化,建议网站源码长度在128k之内,不要过长 √ 针对爬虫爬取做优化,请将主体内容放于前方,避免抓取截断造成的内容抓取不全 关于内容空短的示例分析: 某网站反馈网站内容未被建索引,分析发现,网站抓取没有问题,但被抓取到的页面,都提示需要输入验证码才能查看全部页面,这类页面被判断为空短页面,这类页面在抓取后,会被判定为垃圾内容。 而且当蜘蛛对一个网站抓取后发现大面积都是低值的空短页面时,爬虫会认为这个站点的整体价值比较低,那么在后面的抓取流量分布上会降低,导致针对该站点的页面更新会比较慢,进而抓取甚至建索引库也会比较慢。
为什么会出现网站内容空短这种情况,其中一个原因是网站内容未全部搭建完成,未对外开放,但已被蜘蛛爬取发现。针对这种情况,建议网站在邀请测试阶段使用robots封禁。 另外还会有些网站,设置用户查看权限,如需用户登陆才能查看全部内容,这样的行为对搜索引擎也极不友好,蜘蛛无法模拟用户登陆,仅能抓取网站已展示页面,可能会导致抓取页面为空短的现象。 这里再次强调,不要让爬虫给站点画上不优质的标签,对网站将产生很不好的影响。另外,移动端的H5 页面,很多都是采用JS方式加载,其实是更容易产生空短,请各位站长注意。 3.2.1.3 网页发布时间 关于网页发布时间,有以下几点建议 √ 网页内容尽可能加上产出时间,严格说是内容发布时间;且时间尽量全,时间格式为年-月-日 时:分:秒 例:2017-08-12 10:23:06 √ 网页上切忌乱加时间,这样容易造成页面时间提取问题,或搜索引擎判断提取时间不可信,从而降低对网页的展现 3.2.1.4 canonical标签 canonical标签的目的 在PC互联网时代,canonical标签的作用主要是用来解决由于网址形式不同内容相同而造成的内容重复问题。而在移动时代,canonical标签被百度搜索赋予了更多的意义,在原来的作用基础上,又起到了相同内容的移动页和PC页之间的关联作用;让移动资源更容易继承PC资源的各种特征,从而快速生效移动网页数据。 canonical标签如何设置 在HTML代码的head里添加rel="canonical",不能添加多个,否则搜索引擎会认为是无效的canonical标签。另外需要注意href里的地址不能是死链,错误页或者被robots封禁的页面。 具体示例如下:
3.2.2 落地页体验 为提升移动搜索整体用户体验,提升搜索满意度,百度搜索在 2017 年推出《百度移动搜索落地页体验白皮书——广告篇2.0》(以下简称广告白皮书)。广告白皮书对网站移动落地页页面广告内容、广告位置、大小等做了明确要求,从而充分保证搜索用户的浏览体验。 白皮书详情,请参考《百度移动搜索落地页体验白皮书——广告篇2.0》 3.3 页面价值 3.3.1 内容价值 (责任编辑:admin) |