百度智能小程序资源收录

816次阅读

在 Web 生态中,搜索引擎如何发现并收录资源大家并不陌生。爬虫通过抓取 Web 网页,能够很好的解析页面内容,并为其建立索引。那么作为依托于客户端形态存在的小程序,又是如何实现资源收录的呢?

答案是,既然 Web 爬虫技术已经相对成熟,只要将小程序转换为一个 Web 版本,即可轻松借助已有的爬虫能力实现小程序页面的收录。到这里,今天的主角就要隆重登场了 —— Web 化小程序

Web 化小程序是百度小程序的 Web 版本。每个 Web 化小程序都是一个单页面应用站点,可以通过唯一对应的 URL 在浏览器打开。Web 化小程序与对应的客户端打开的小程序内容、样式和交互行为基本一致。

以百度翻译小程序为例,下图为百度翻译小程序在百度 App 中打开和它的 Web 化小程序在 safari 浏览器打开的效果:

acc95587-86ea-4a58-b1f3-f991ce2cee11.png

那么 Web 化小程序是如何生成的呢?

百度智能小程序具有自动生成 Web 化的能力,在小程序发布时,后台会自动为每个小程序生成一份 Web 化小程序。也就是说 Web 化对小程序开发者来说是透明的,开发者几乎不用做额外的适配即可完成转换(当然,由于H5与客户端天然存在的差异,我们仍有一些开发建议希望开发者能够关注,后面会详细介绍)。

有人问:想让爬虫认识至于那么认真吗?有个 HTML 就够了,还要和客户端小程序样式和交互保持一致?事实上,随着SPA应用的大量普及,现代爬虫如果仅通过解析静态 HTML ,无法充分获取有效页面内容。因此 爬虫的抓取过程,会渲染页面,并根据页面的动态数据和样式布局等信息更好的理解页面内容。也就是说,爬虫看到的页面和我们看到的页面是一模一样的。


在百度开发者工具 2.2.4 以上版本,默认开启 Web 化。之前版本的工具需要手动打开 Web 化开关。对于之前未开启 Web 化的小程序,只要升级工具到最新版本,重新发布,即可自动开启。


当有小程序发布后,爬虫会通过自主发现的方式收录 Web 化小程序的各个页面,为其建立索引。

除了自主发现的资源收录方式,如果开发者想要获取更高时效的资源收录效率,还可以通过主动提交资源列表,即 sitemap 的方式实现天级和周级资源收录。sitemap 提交详见官方文档《接入自然搜索结果 - 提交sitemap

对于在百度已收录了 H5 站的资源,也可以通过配置 H5 域名和提交 H5 与小程序页面映射规则的方式替换原 H5 页面收录结果继承已有权重。具体提交方式详见官方文档《接入自然搜索结果 - 配置URL映射规则

作者:夫唯学院SEO培训  修订1.0  2019-07-08

搜外专注SEO在线系统培训,10年来超过五万学员在此获得技术提升和人脉圈子。

SEO课程已融入到移动搜索、零基础建站、群站SEO思维、搜外6系统、SEM入门等。

邀请您加入实时SEO交流微信群。请添加搜外-小沫微信:seowhy2018 注明:SEO交流群