胡应邦,胡应邦讲师,胡应邦联系方式,胡应邦培训师-【讲师网】
网络营销资深专家
41
鲜花排名
0
鲜花数量
扫一扫加我微信
胡应邦:搜索引擎收录网页的四个阶段
2016-01-20 29091

作为SEO从业者,不仅要被搜索引擎抓取,还要被收录,最重要的是在收录后有良好的排名,本文将简单分析下搜索引擎收录网页的四个阶段。每个网站、每个网页的排名都是不一样的,看看你的网站处于哪个阶段呢?

网页收录第一阶段:大小通吃

搜索引擎的网页抓取都是采取「大小通吃」的策略,也就是把网页中能发现的链接逐一加入到待抓取URL中,机械性的将新抓取的网页中的URL提取出来,这种方式虽然比较古老,但效果很好,这就是为什么很多站长反应蜘蛛来访问了,但没有收录的原因,这仅仅是第一阶段。

网页收录第二阶段:网页评级

而第二阶段则是对网页的重要性进行评级,PageRank是一种著名的链接分析算法,可以用来衡量网页的重要性,很自然的,站长可以用PageRank的思路来对URL进行排序,这就是各位热衷的「发外链」,据一位朋友了解,在中国「发外链」这个市场每年有上亿元的规模。    

爬虫的目的就是去下载网页,但PageRank是个全局性算法,也就是当所有网页有下载完成后,其计算结果才是可靠的。对于中小网站来讲,服务器如果质量不好,如果在抓取过程中,只看到部分内容,在抓取阶段是无法获得可靠的PageRank得分。

网页收录第三阶段:OCIP策略

OCIP策略更像是PageRank算法的改进。在算法开始之前,每个网页都给予相同的「现金」,每当下载某个页面A后,A将自己的「现金」平均分给页面中包含的链接页面,把自己的「现金」清空。这就是为什么导出的链接越少,权重会越高的原因之一。

而对于待抓取的网页,会根据手头拥有的现金多少排序,优先下载现金最充裕的网页,OCIP大致与PageRank思路一致,区别在于:PageRank每次要迭代计算,而OCIP则不需要,所以计算速度远远快于PageRank,适合实时计算使用。这可能就是为什么很多网页会出现「秒收」的情况了。

网页收录第四阶段:大站优先策略

大站优先的思路很直接,以网站为单位来衡量网页的重要性,对于待抓取的URL队列中的网页,根据所述网站归类,如果哪个网站等待下载的页面最多,则优先下载这些链接。其本质思想是「倾向于优先下载大型网站URL」。因为大型网站往往包含更多的页面。鉴于大型网站往往是名站,其网页质量一般较高,所以这个思路虽然简单,但有一定依据。

实验表明这个算法虽然简单粗暴,但却能收录高质量网页,很有效果。这也是为什么许多网站的内容被转载后,大站却能排到你前面的最重要原因之一

全部评论 (0)
热门领域讲师
互联网营销 互联网 新媒体运营 短视频 电子商务 社群营销 抖音快手 新零售 网络推广 领导力 管理技能 中高层管理 中层管理 团队建设 团队管理 高绩效团队 创新管理 沟通技巧 执行力 阿米巴 MTP 销售技巧 品牌营销 销售 大客户营销 经销商管理 销讲 门店管理 商务谈判 经济形势 宏观经济 商业模式 私董会 转型升级 股权激励 纳税筹划 非财管理 数据加载错误
Message:Exception of type 'System.Web.HttpUnhandledException' was thrown.
Source:System.Web
StackTrace: at System.Web.UI.Page.HandleError(Exception e) at System.Web.UI.Page.ProcessRequestMain(Boolean includeStagesBeforeAsyncPoint, Boolean includeStagesAfterAsyncPoint) at System.Web.UI.Page.ProcessRequest(Boolean includeStagesBeforeAsyncPoint, Boolean includeStagesAfterAsyncPoint) at System.Web.UI.Page.ProcessRequest() at System.Web.UI.Page.ProcessRequest(HttpContext context) at System.Web.Mvc.ViewPage.ProcessRequest(HttpContext context) at System.Web.Mvc.ViewUserControl.ViewUserControlContainerPage.ProcessRequest(HttpContext context) at System.Web.Mvc.ViewPage.RenderView(ViewContext viewContext) at System.Web.Mvc.ViewUserControl.RenderView(ViewContext viewContext) at System.Web.Mvc.WebFormView.RenderView(ViewContext viewContext, TextWriter writer, Object instance) at System.Web.Mvc.Html.RenderPartialExtensions.RenderPartial(HtmlHelper htmlHelper, String partialViewName, Object model, ViewDataDictionary viewData) at System.Web.Mvc.Html.SDRenderPartialExtensions.SDRenderPartial(HtmlHelper helper, String partialName, Object model, ViewDataDictionary viewData, Action`2 expFunc)
Message:Collection was modified; enumeration operation may not execute.
Source:mscorlib
StackTrace: at System.Collections.Generic.List`1.Enumerator.MoveNextRare() at ASP.views_space_spacerightbar_v2_ascx.__Render__control1(HtmlTextWriter __w, Control parameterContainer) in d:\webs\subsite-pc.jiangshi.org\Views\Space\SpaceRightBar_v2.ascx:line 52 at System.Web.UI.Control.RenderChildrenInternal(HtmlTextWriter writer, ICollection children) at System.Web.UI.Control.RenderChildrenInternal(HtmlTextWriter writer, ICollection children) at System.Web.Mvc.ViewPage.Render(HtmlTextWriter writer) at System.Web.UI.Page.ProcessRequestMain(Boolean includeStagesBeforeAsyncPoint, Boolean includeStagesAfterAsyncPoint)
讲师网宁波站 nb.jiangshi.org 由加盟商 杭州讲师云科技有限公司 独家运营
培训业务联系:小文老师 18681582316

杭州讲师网络科技有限公司 更多城市分站招商中