- 浏览: 273570 次
- 性别:
- 来自: 上海
文章分类
最新评论
-
onlyjing:
你好!我是猎头顾问only ,有北京知名网络安全公司高级web ...
python:web搭建 -
dr88:
有时间也来做一个,谢谢分享
Wordpress自动采集更新、发布文章插件AutoBlogged2.578最新破解版 -
Ryee:
百度赚钱依靠页面看来承载广告,所以1、增加页面2、提升单位页面 ...
百度如何赚钱 -
jeans_1312:
路过,学习一下
Wordpress自动采集更新、发布文章插件AutoBlogged2.578最新破解版 -
Ryee:
坚持喝了一周的红豆薏米汤,适当的运动量辅助排汗,湿气除的不错。 ...
夏季南方去体内湿气-养生方法
搜索引擎每天处理着数以亿计的查询请求,每个查询请求都代表了一个用户对于某种资源的特定需求。多数时候,通过查询返回的网页结果,这些需求被满足了,我们可以认为结果中的某些页面对特定用户的特定需求产生了价值。那么对于搜索引擎而言,页面的价值是指什么,我们为什么要研究页面价值,技术上怎样判断页面的价值呢?本文将逐一回答这些问题。
一、什么页面价值
前面我们说了,某个页面满足了某一用户的特定需求,就体现了这个页面对用户的价值。那么对搜索引擎而言,价值体现在哪些方面呢?一个简单的推论,所有可能会对用户产生价值的页面都是对搜索引擎有价值的,将这些页面建入搜索引擎的索引中能够满足最终检索到它们用户的需求,我们称这种价值为检索价值。只要是能解决某个用户信息需求的,并且是可以通过某些正常检索需求到达的,那么就是有检索价值的。
小学生张三喜欢在qzone上写日记,写他前天吃了什么,今天玩了什么。这些内容,是有价值的。它们对张三的家长、同学、老师,以及其他小学生,和对小学生日记感兴趣的人来说,都是有价值的。对于这个信息体来说,“张三”这个名字是检索的“key”。
有一些信息单元,只有“浏览”价值,而没有到达该信息的检索途径,那么该资源可能是有价值的,但检索价值就很低。比如一张百度大厦附近的地图,从浏览角度,是有价值的;但是如果没有任何周边文字说明(或者link的anchor text),只有一张光秃秃的地图,就没有检索价值。当然,如果图片的内容识别技术,有朝一日能自动识别出这个是“百度大厦附近地图”,或者能够自动分析出地图内的各种大厦、街道、餐馆等的名称,那么这张图一样变得有检索价值了。所以一个页面是否有检索价值,应该取决于两点:
1) 是否能解决某个特定的需求(价值)
2) 是否可以通过某个常规的搜索方式获得该信息(检索)
那么,没有检索价值的页面,是否对搜索引擎就没有价值了呢?仔细想想,答案是否定的。索引只是搜索引擎的一个环节,对于其他环节而言,没有检索价值的页面有可能对我们更好的收录那些检索价值高的页面有帮助。比如对负责抓取互联网资源的spider而言,有一些页面,本身没有检索价值,但通过这些页面的抓取和分析,能够更快的帮助我们掌握这一类页面没有检索价值这一重要信息,从而节省更多的流量进行更加有效的抓取。
考虑到这种价值可以算作一种“间接的”检索价值,最终还是立足于索引价值的,在本文中就不再展开论述,我们只关注“检索价值”这一根本问题。下文中提到的“页面价值”特指页面的“检索价值”。
二、为什么要研究页面价值
首先,互联网上的页面是无穷尽的,而搜索引擎的硬件资源是有限的,想用有限的资源去覆盖无穷尽的互联网,我们就需要对页面价值做出判断,不收录那些无检索价值的页面,少收录那些检索价值低的页面。这是页面价值在收录控制方面的应用。
第二,搜索引擎spider的抓取能力是有限的,出于访问友好性的考虑,对于一个网站或一个IP抓取速率需要有一个抓取速率的上限。在这一限制下,抓取或页面更新就需要有一个先后顺序,而这一排序的主要参考依据就是页面价值,或者说对页面价值的预测(未抓取时)。这是页面价值在spider调度方面的应用。
第三,对于某些页面,页面内容发生变化,导致它的检索价值从有到无,典型的就是变为“死链”,或者“被黑”。对于这些页面,好的搜索引擎会在第一时间将其排除出索引,或在检索时对其进行屏蔽,以保证返回给用户的结果是更多检索价值高的“好页面”。对于另一些页面,它不仅具有很高的检索价值,而且有很强的“时效性”,能够第一时间让用户检索到这些页面对搜索体验有很大的提升。对搜索引擎而言,越快的收录和索引页面意味着越多的额外资源开销,以多快的速度收录和以多短的周期更新索引,需要通过页面价值的分析来指导。这两方面是页面价值在死链率和时效性两大搜索引擎指标提升上的应用。
最后,普遍意义上的页面价值高低对搜索引擎返回给用户的结果排序上也存在着指导意义。理想情况下搜索引擎的结果是按照与查询请求的相关性进行排序的,在相关性大体相当的情况下,用户更倾向与浏览普遍意义上页面价值高的网页。这是页面价值在ranking方面的应用。
可以说,页面检索价值的研究是搜索引擎中的一项较为基础的工作,对页面价值的认识和判断的准确程度直接影响着搜索引擎的覆盖率、死链率、时效性等几大主要指标。
三、如何判断页面价值
前文中提到过一个小学生张三qzone日记的例子。我们认为这个页面是有价值的,对张三的同学,朋友,家人都有价值。与此类似的,百度CEO李彦宏在i贴吧上发表一条十几个字的i贴,也是有价值的,对李彦宏的上千万粉丝都有价值。虽然李彦宏的i贴长度可能远小于张三的日记,但就这两个页面的价值来说,我们都会有一个共同的认识,即从普遍意义上讲,李彦宏的i贴价值远大于张三的日记。(当然,对于张三的妈妈来说很可能这个价值的关系是相反的)
再举个例子,搜索某个人的手机号码,搜索引擎返回了一个结果,是这个人在某个论坛上的一个回复。虽然这个手机号码关心的人不多,但因为资源是绝对稀缺的,对于关心这个手机号码的查询需求,这个页面是完全不可替代的,因此具有极高的价值。
另外,页面检索价值,还受到页面质量的影响。相似的页面,对于满足用户需求来说,往往会有很大差异,比如资源下载速度,页面的布局,广告的多寡。这类差异,姑且称之为页面质量。
最后,有些页面具有明显的公众话题性质,且这些资源往往在刚刚产生时有非常高的关注度,随着时间的推移热度显著下降,有着“新闻”的特征。典型的像各种“门”事件,地震、火灾等大型的自然灾害。我们认为这类资源具有“时效性”特征。
所以,一个页面的检索价值,大致受以下四个要素的影响:
感兴趣的受众群大小
该页面的稀缺程度(可替代性)
该页面的质量高低
该页面的时效性特征强弱
这四种要素,简称受众,稀缺,质量和时效性。
1. 受众
受众群体的大小,即代表了用户检索需求的大小。评价受众的大小主要依据信息发布源的受众和信息内容本身受众两大方面。具体因素包括且不限于:
网站忠实用户群大小
一般来说,拥有自己忠实用户群的知名网站,他们的成功,在于他们的内容和服务,比别人更能吸引和满足用户。从这个角度来说,我们可以推论,拥有更多忠实用户群的网站上的内容,会比忠实用户群较少的网站上的内容,有更多的既有和潜在受众群。这样的话,忠实用户群大小,就可以变成对站点内资源检索价值的一种衡量指标。忠实用户群的好处在于,它是变动的。如果一个网站变差了,那么用户就会用脚投票。超链有过期问题,作 弊问题,而虚假用户群作 弊很难。一般所谓的网站知名度,会和忠实用户群数量密切相关。
资源分布规律
我们再考虑一个网站内部的资源分布所体现的受众群大小问题。比如新浪新闻首页的那些推介内容。新浪编辑为什么要推这些内容?因为他们认为这些是用户最感兴趣的。那么从索引价值角度而言,相当于有一个庞大的编辑团队,已经对这些内容打上了“符合大众口味”的标签。搜索引擎只需要乐享其成就行了。这样的话,资源相对于某些结构性关键页面(首页、频道页等)的链接深度,也可以成为衡量一个资源受众群大小的指标了。
访问热门度
我们再从访问热门度角度来考虑受众群大小问题。这个是最直接的,当然,它需要第三方的工具来获取关键数据。通过这个途径,获取的不应仅仅是需要入库的页面,还有用户访问一个网站的访问模式。
超链
超链某种程度上也是受众群大小的反映。某个资源的质量越高,接触的受众群越大,那么获得正常链接的数量往往也越大。
内容特征
A:我写博客:“传言郭德纲要上春晚了。”
B:我写博客:“我今天吃早饭了。”
同样的来源,前者的受众必然高于后者。即:当在发布源相同的情况下,具有公众属性的内容分值会更高。
2. 稀缺
稀缺主要是描述页面在互联网中的独特性。说到稀缺往往会想到重复,稀缺是否等同于无重复,我们应该怎样解读这一概念呢?可以看一个例子:
某人发表了一篇针对某新闻事件的原创博客,随后被新浪转载到了新闻频道。从描述的内容上讲,这是一种重复。但这种重复仅仅是主体内容上的重复,一方面它的转载带来了访问速度、稳定性等方面的增益,并且之后的检索用户还有可能用“新闻事件+新浪”来检索此新闻。这可以被称之为站点增益。另一方面,它在转载过程中可能会改变页面的标题,而且依托其受众,在转载页面上,还有可能出现更多的有价值评论和回复等,还有可能存在指向其它相关事件的新闻链接。这些可以被称之为内容增益。因此即使主题内容没有任何变化,新浪的这次转载也是有价值的,其稀缺度也是较高的。
同样,反过来说,如果转载的网站相当不知名,则其无法带来站点名/稳定性/速度的增益。更有甚者,转载之后在页面上加入大量广告妨碍阅读,或者只转载了内容中不完整的一部分,这样的转载,或者说采集,就是纯重复的,与采集源相比,就是没有检索价值的了。
综上所述,对于主体内容重复的页面,我们应该评价其是否存在站点增益和内容增益,只有对于大量完全无增益的重复页面,我们才应该认为其稀缺度较低。
3. 质量
页面的质量是它对需求的满足程度的一种体现。判断页面质量的高低,应该是从最基础的需求依次递进的。
首先,不能是死链、网站要有一定的稳定性、访问速度要令人满意。其次,主体内容是否完整、版式和字体是否易读、各类广告会不会太多。最后,信息是否丰富、延伸出的次级需求是否满足。
典型的低质量页面存在以下一些特征:
主需求无效/未满足(过期分类广告/软件下载页面,下载链接无效等)
死链
虚假信息/诈 骗等
空页面
站点不稳定
影响主需求的权限问题(下载/浏览需要注册会员/积分等)
信息不完整(转载不全等)
浏览体验差(广告/字体/页面布局等)
典型的高质量页面存在以下一些特征:
访问速度快(页面加载快/资源下载速度快)
页面整洁干净,主体内容在显著位置
页面信息完整
页面元素丰富(文字、图片、评论、相关推荐等)
4. 时效性
“时效性”是页面价值的一个属性,它一般体现在两个方面:一是页面所描述的事物本身有着较强的公众话题性,容易被传播。这其实是受众的一个体现。二是页面所描述的事物仅在第一时间有较高热度,随着时间推移热度显著下降。这是一种“新闻”性。对于具有上述两种属性的页面,如果搜索引擎spider发现页面的时间正处于该事物的“爆发期”或“爆发期”之前,我们认为该页面具有时效性。
需要说明的是,搜索引擎的广义“时效性”是指对所有有价值新资源的及时收录提供检索,而所有的有价值新资源中,有一大部分其收录速度的提升对用户的搜索体验改善意义是不大的,比如介绍如何瘦身的知识性文章,张三的日记。页面价值中的“时效性”指得是一种突发时效性,也就是所有有价值页面中最需要及时收录的那些。对页面时效性的判断是为了指导我们将搜索引擎有限的资源投入到最关键的地方,产生最好的性价比。
判断页面的时效性价值,主要通过下面一些途径:
页面本身受众是否有短时间的突增,比如超链爆发。贾君鹏的帖子就是一个典型的例子。
描述相同事物的互联网页面是否有段时间的突增。贾君鹏事件短时间内爆发出大量相关讨论、报 ...
根据一个集合内的页面是否具有上述两种特征,推测该集合的时效性价值。比如魔兽世界吧经常 ...
四、页面价值的研究重点
前文已经介绍了页面价值的含义,研究的意义与价值判断的方法。最后我们再看一下,从技术角度上,这一方向的研究中的重点方向。对页面价值的研究工作主要致力于三方面:
对页面价值体系的认识。我们目前对页面价值的认识是来源于前文所述的四个维度,这个认识是否全面,对于不断变化的互联网环境与用户需求,这些维度应该如何扩展与变化才能更好的服务于整体的搜索体验提升,是一个很重要问题。
对于反映页面价值的页面特征提取。巧妇难为无米之炊,挖掘更多的页面特征,更准确合理的特征提取是页面价值判定准确率提升的基础。
对各种页面特征的组合策略(机器学习)。针对不用的应用方向,需要利用相应的特征通过合理且高效的策略拟合出页面价值的最终评价结果。
一、什么页面价值
前面我们说了,某个页面满足了某一用户的特定需求,就体现了这个页面对用户的价值。那么对搜索引擎而言,价值体现在哪些方面呢?一个简单的推论,所有可能会对用户产生价值的页面都是对搜索引擎有价值的,将这些页面建入搜索引擎的索引中能够满足最终检索到它们用户的需求,我们称这种价值为检索价值。只要是能解决某个用户信息需求的,并且是可以通过某些正常检索需求到达的,那么就是有检索价值的。
小学生张三喜欢在qzone上写日记,写他前天吃了什么,今天玩了什么。这些内容,是有价值的。它们对张三的家长、同学、老师,以及其他小学生,和对小学生日记感兴趣的人来说,都是有价值的。对于这个信息体来说,“张三”这个名字是检索的“key”。
有一些信息单元,只有“浏览”价值,而没有到达该信息的检索途径,那么该资源可能是有价值的,但检索价值就很低。比如一张百度大厦附近的地图,从浏览角度,是有价值的;但是如果没有任何周边文字说明(或者link的anchor text),只有一张光秃秃的地图,就没有检索价值。当然,如果图片的内容识别技术,有朝一日能自动识别出这个是“百度大厦附近地图”,或者能够自动分析出地图内的各种大厦、街道、餐馆等的名称,那么这张图一样变得有检索价值了。所以一个页面是否有检索价值,应该取决于两点:
1) 是否能解决某个特定的需求(价值)
2) 是否可以通过某个常规的搜索方式获得该信息(检索)
那么,没有检索价值的页面,是否对搜索引擎就没有价值了呢?仔细想想,答案是否定的。索引只是搜索引擎的一个环节,对于其他环节而言,没有检索价值的页面有可能对我们更好的收录那些检索价值高的页面有帮助。比如对负责抓取互联网资源的spider而言,有一些页面,本身没有检索价值,但通过这些页面的抓取和分析,能够更快的帮助我们掌握这一类页面没有检索价值这一重要信息,从而节省更多的流量进行更加有效的抓取。
考虑到这种价值可以算作一种“间接的”检索价值,最终还是立足于索引价值的,在本文中就不再展开论述,我们只关注“检索价值”这一根本问题。下文中提到的“页面价值”特指页面的“检索价值”。
二、为什么要研究页面价值
首先,互联网上的页面是无穷尽的,而搜索引擎的硬件资源是有限的,想用有限的资源去覆盖无穷尽的互联网,我们就需要对页面价值做出判断,不收录那些无检索价值的页面,少收录那些检索价值低的页面。这是页面价值在收录控制方面的应用。
第二,搜索引擎spider的抓取能力是有限的,出于访问友好性的考虑,对于一个网站或一个IP抓取速率需要有一个抓取速率的上限。在这一限制下,抓取或页面更新就需要有一个先后顺序,而这一排序的主要参考依据就是页面价值,或者说对页面价值的预测(未抓取时)。这是页面价值在spider调度方面的应用。
第三,对于某些页面,页面内容发生变化,导致它的检索价值从有到无,典型的就是变为“死链”,或者“被黑”。对于这些页面,好的搜索引擎会在第一时间将其排除出索引,或在检索时对其进行屏蔽,以保证返回给用户的结果是更多检索价值高的“好页面”。对于另一些页面,它不仅具有很高的检索价值,而且有很强的“时效性”,能够第一时间让用户检索到这些页面对搜索体验有很大的提升。对搜索引擎而言,越快的收录和索引页面意味着越多的额外资源开销,以多快的速度收录和以多短的周期更新索引,需要通过页面价值的分析来指导。这两方面是页面价值在死链率和时效性两大搜索引擎指标提升上的应用。
最后,普遍意义上的页面价值高低对搜索引擎返回给用户的结果排序上也存在着指导意义。理想情况下搜索引擎的结果是按照与查询请求的相关性进行排序的,在相关性大体相当的情况下,用户更倾向与浏览普遍意义上页面价值高的网页。这是页面价值在ranking方面的应用。
可以说,页面检索价值的研究是搜索引擎中的一项较为基础的工作,对页面价值的认识和判断的准确程度直接影响着搜索引擎的覆盖率、死链率、时效性等几大主要指标。
三、如何判断页面价值
前文中提到过一个小学生张三qzone日记的例子。我们认为这个页面是有价值的,对张三的同学,朋友,家人都有价值。与此类似的,百度CEO李彦宏在i贴吧上发表一条十几个字的i贴,也是有价值的,对李彦宏的上千万粉丝都有价值。虽然李彦宏的i贴长度可能远小于张三的日记,但就这两个页面的价值来说,我们都会有一个共同的认识,即从普遍意义上讲,李彦宏的i贴价值远大于张三的日记。(当然,对于张三的妈妈来说很可能这个价值的关系是相反的)
再举个例子,搜索某个人的手机号码,搜索引擎返回了一个结果,是这个人在某个论坛上的一个回复。虽然这个手机号码关心的人不多,但因为资源是绝对稀缺的,对于关心这个手机号码的查询需求,这个页面是完全不可替代的,因此具有极高的价值。
另外,页面检索价值,还受到页面质量的影响。相似的页面,对于满足用户需求来说,往往会有很大差异,比如资源下载速度,页面的布局,广告的多寡。这类差异,姑且称之为页面质量。
最后,有些页面具有明显的公众话题性质,且这些资源往往在刚刚产生时有非常高的关注度,随着时间的推移热度显著下降,有着“新闻”的特征。典型的像各种“门”事件,地震、火灾等大型的自然灾害。我们认为这类资源具有“时效性”特征。
所以,一个页面的检索价值,大致受以下四个要素的影响:
感兴趣的受众群大小
该页面的稀缺程度(可替代性)
该页面的质量高低
该页面的时效性特征强弱
这四种要素,简称受众,稀缺,质量和时效性。
1. 受众
受众群体的大小,即代表了用户检索需求的大小。评价受众的大小主要依据信息发布源的受众和信息内容本身受众两大方面。具体因素包括且不限于:
网站忠实用户群大小
一般来说,拥有自己忠实用户群的知名网站,他们的成功,在于他们的内容和服务,比别人更能吸引和满足用户。从这个角度来说,我们可以推论,拥有更多忠实用户群的网站上的内容,会比忠实用户群较少的网站上的内容,有更多的既有和潜在受众群。这样的话,忠实用户群大小,就可以变成对站点内资源检索价值的一种衡量指标。忠实用户群的好处在于,它是变动的。如果一个网站变差了,那么用户就会用脚投票。超链有过期问题,作 弊问题,而虚假用户群作 弊很难。一般所谓的网站知名度,会和忠实用户群数量密切相关。
资源分布规律
我们再考虑一个网站内部的资源分布所体现的受众群大小问题。比如新浪新闻首页的那些推介内容。新浪编辑为什么要推这些内容?因为他们认为这些是用户最感兴趣的。那么从索引价值角度而言,相当于有一个庞大的编辑团队,已经对这些内容打上了“符合大众口味”的标签。搜索引擎只需要乐享其成就行了。这样的话,资源相对于某些结构性关键页面(首页、频道页等)的链接深度,也可以成为衡量一个资源受众群大小的指标了。
访问热门度
我们再从访问热门度角度来考虑受众群大小问题。这个是最直接的,当然,它需要第三方的工具来获取关键数据。通过这个途径,获取的不应仅仅是需要入库的页面,还有用户访问一个网站的访问模式。
超链
超链某种程度上也是受众群大小的反映。某个资源的质量越高,接触的受众群越大,那么获得正常链接的数量往往也越大。
内容特征
A:我写博客:“传言郭德纲要上春晚了。”
B:我写博客:“我今天吃早饭了。”
同样的来源,前者的受众必然高于后者。即:当在发布源相同的情况下,具有公众属性的内容分值会更高。
2. 稀缺
稀缺主要是描述页面在互联网中的独特性。说到稀缺往往会想到重复,稀缺是否等同于无重复,我们应该怎样解读这一概念呢?可以看一个例子:
某人发表了一篇针对某新闻事件的原创博客,随后被新浪转载到了新闻频道。从描述的内容上讲,这是一种重复。但这种重复仅仅是主体内容上的重复,一方面它的转载带来了访问速度、稳定性等方面的增益,并且之后的检索用户还有可能用“新闻事件+新浪”来检索此新闻。这可以被称之为站点增益。另一方面,它在转载过程中可能会改变页面的标题,而且依托其受众,在转载页面上,还有可能出现更多的有价值评论和回复等,还有可能存在指向其它相关事件的新闻链接。这些可以被称之为内容增益。因此即使主题内容没有任何变化,新浪的这次转载也是有价值的,其稀缺度也是较高的。
同样,反过来说,如果转载的网站相当不知名,则其无法带来站点名/稳定性/速度的增益。更有甚者,转载之后在页面上加入大量广告妨碍阅读,或者只转载了内容中不完整的一部分,这样的转载,或者说采集,就是纯重复的,与采集源相比,就是没有检索价值的了。
综上所述,对于主体内容重复的页面,我们应该评价其是否存在站点增益和内容增益,只有对于大量完全无增益的重复页面,我们才应该认为其稀缺度较低。
3. 质量
页面的质量是它对需求的满足程度的一种体现。判断页面质量的高低,应该是从最基础的需求依次递进的。
首先,不能是死链、网站要有一定的稳定性、访问速度要令人满意。其次,主体内容是否完整、版式和字体是否易读、各类广告会不会太多。最后,信息是否丰富、延伸出的次级需求是否满足。
典型的低质量页面存在以下一些特征:
主需求无效/未满足(过期分类广告/软件下载页面,下载链接无效等)
死链
虚假信息/诈 骗等
空页面
站点不稳定
影响主需求的权限问题(下载/浏览需要注册会员/积分等)
信息不完整(转载不全等)
浏览体验差(广告/字体/页面布局等)
典型的高质量页面存在以下一些特征:
访问速度快(页面加载快/资源下载速度快)
页面整洁干净,主体内容在显著位置
页面信息完整
页面元素丰富(文字、图片、评论、相关推荐等)
4. 时效性
“时效性”是页面价值的一个属性,它一般体现在两个方面:一是页面所描述的事物本身有着较强的公众话题性,容易被传播。这其实是受众的一个体现。二是页面所描述的事物仅在第一时间有较高热度,随着时间推移热度显著下降。这是一种“新闻”性。对于具有上述两种属性的页面,如果搜索引擎spider发现页面的时间正处于该事物的“爆发期”或“爆发期”之前,我们认为该页面具有时效性。
需要说明的是,搜索引擎的广义“时效性”是指对所有有价值新资源的及时收录提供检索,而所有的有价值新资源中,有一大部分其收录速度的提升对用户的搜索体验改善意义是不大的,比如介绍如何瘦身的知识性文章,张三的日记。页面价值中的“时效性”指得是一种突发时效性,也就是所有有价值页面中最需要及时收录的那些。对页面时效性的判断是为了指导我们将搜索引擎有限的资源投入到最关键的地方,产生最好的性价比。
判断页面的时效性价值,主要通过下面一些途径:
页面本身受众是否有短时间的突增,比如超链爆发。贾君鹏的帖子就是一个典型的例子。
描述相同事物的互联网页面是否有段时间的突增。贾君鹏事件短时间内爆发出大量相关讨论、报 ...
根据一个集合内的页面是否具有上述两种特征,推测该集合的时效性价值。比如魔兽世界吧经常 ...
四、页面价值的研究重点
前文已经介绍了页面价值的含义,研究的意义与价值判断的方法。最后我们再看一下,从技术角度上,这一方向的研究中的重点方向。对页面价值的研究工作主要致力于三方面:
对页面价值体系的认识。我们目前对页面价值的认识是来源于前文所述的四个维度,这个认识是否全面,对于不断变化的互联网环境与用户需求,这些维度应该如何扩展与变化才能更好的服务于整体的搜索体验提升,是一个很重要问题。
对于反映页面价值的页面特征提取。巧妇难为无米之炊,挖掘更多的页面特征,更准确合理的特征提取是页面价值判定准确率提升的基础。
对各种页面特征的组合策略(机器学习)。针对不用的应用方向,需要利用相应的特征通过合理且高效的策略拟合出页面价值的最终评价结果。
发表评论
-
百度2013中文网站发展趋势报告
2013-02-05 14:01 1222百度站长平台今日发布 ... -
Appifier推出新服务把WordPress网站变成移动应用
2012-09-20 10:23 1003Appifier是一个新服务,之前处于Beta阶段,它能够把W ... -
百度如何赚钱(二)
2011-09-22 10:17 864继续昨天的内容... 1、增加页面 在某种程度上说 ... -
百度如何赚钱
2011-09-21 18:00 1562一提起百度,如同一石激起千层浪,会有很多的话题可以说。 ... -
SEO过程中Url友好建设的方法
2011-07-29 10:58 947什么是好的url? 创建具有良好描述性、规范、简单的url, ... -
百度统计推出的SEO优化建议
2011-06-30 10:11 11536月29日,百度统计推出 ... -
百度爬虫Baiduspider更新通知
2011-05-20 17:11 1018各位网站管理员,大家好! 百度网页搜索spider的User ... -
【分享】外链建设方法大全【转载】
2011-05-06 16:30 862外链是影响网站排名的最重要因素之一,也是我们SEO工作者常谈的 ... -
【分享】外链建设方法大全【转载】
2011-05-06 16:27 784外链是影响网站排名的最重要因素之一,也是我们SEO工作者常谈的 ... -
百度判别站点优劣SVM模型
2011-04-13 13:32 1274在优质/劣质站点二分问题中,百度采用了SVM模型。SVM是一种 ... -
百度开放平台申请过程
2010-10-11 11:11 778百度开放平台在经过测试后现已正式投入运营,运营初期主要针对客服 ... -
百度框,商业利益与公平的博弈
2010-09-06 10:34 955百度框计算的概念一年前就提出了,李彦宏在公开场合介绍框计算的时 ... -
百度搜索引擎优化指南 for baidu SEO
2010-08-16 15:42 885千呼万唤始出来,百度优化指南终于露面了。对于SEOr可能更多的 ... -
百度11位现象
2010-08-16 10:40 911很多SEO都见证或经历了百度11位现象,那百度11位现象到底是 ... -
百度关于友情链接的解析
2010-07-29 09:37 697Lee:关于友情链接的提问 ... -
百度搜索算法管理
2010-07-19 14:38 1152搜索算法工程师奖惩猜想:每个工程师管理某原则下一套算法,并完全 ... -
baiduspider蜘蛛IP地址
2010-06-22 15:00 842baiduspider活跃蜘蛛IP地址如下: 61.135.1 ... -
搜索引擎优化分级
2010-06-10 16:24 1042如果我们幼稚的给SEO分级的话,最初的阶段暂且叫做初级,之后分 ... -
百度对自有产品排名的解释
2010-04-27 16:05 783相信很多人都会有相同的疑问想从百度这里给个明确的说法; ro ... -
百度爬虫类型(Baiduspider)及robots设置方法
2010-04-20 10:26 1896Baiduspider的user-agent是什么?百度各个产 ...
相关推荐
页面资源位监测和价值分析.pptx
1、搜索引擎为用户展现的每一条搜索结果,都对应着互联网上的一个页面。每一条搜索结果从产生到被搜索引擎展现给用户,都需要经过四个过程:抓取、过滤、建立索引和输出结果。 2、百度蜘蛛会通过搜索引擎系统的计算...
因为我们已经进入了互联网时代,互联网带给我 们的最大价值就是信息高度的透明化,所以我们今天想要买的任何一款产品,我们都会 发现在网络上有无数的卖家在经营着,而这些卖家很有可能也就是产品本身的生产厂家 。...
互联网:需要关注哪些数据,什么数据得出什么结论,最后有什么改进,ip、pv、用户行为等 B2c数据分析指标: 互联网数据分析全文共13页,当前为第1页。b2c站分析采用的指标可能有各种各样的,根据网站的目标和网站的...
首先必须说明,"大数据"虽然在这一两年来因为互联网和信息行业的发展而变得异常火爆,但它并不是一个新鲜玩意儿,追寻其历史,我们会发现在物理学、生物学、环境生态学等领域以及军事、金融、社会管理等行业都能找到...
该算法充分结合网页在互联网上的分布特点, 利用立即价值和未来价值两类评价标准的优势, 根据聚焦爬虫实际运行过程中的搜索情况, 在线调整这两种标准在综合价值中的比重。实验仿真结果表明, 相对于单一价值的搜索策略...
这篇文章主要介绍了微信小程序返回箭头跳转到指定页面实例解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 onUnload: function () { wx.reLaunch({ url:...
网页制作是网站策划师、网络程序员、网页设计师等岗位...新竞争力也认为注重网站的网络营销价值而不是外在表现。网页制作是指使用标识语言,通过一系列设计、建模、和执行的过程将电子格式的信息通过互联网传输,浏览。
自互联网成为一种革命性的大众媒体以来,其发展速度之快令人惊叹.作为世界最大朝阳产业的旅游,当它与电子商务这一新兴模式相结合时,其潜藏的商业价值表露无遗.旅游电子商务的应用可以作为我国旅游业新的市场营销手段,...
这篇文章主要介绍了微信小程序和H5页面间相互跳转代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 1.微信小程序跳转小程序 wx.navigateToMiniProgram ...
段子发布平台主要是模仿了糗百实现了一个毕业设计,技术方面使用了spring mvc,spring,mybatis,页面展示使用了vue。作为一个互联网项目,分为了前端和后端两部分。 核心功能包括:段子发送,段子评论,段子点赞,...
段子发布平台主要是模仿了糗百实现了一个系统设计,技术方面使用了spring mvc,spring,mybatis,页面展示使用了vue。作为一个互联网项目,分为了前端和后端两部分。 核心功能包括:段子发送,段子评论,段子点赞,...
1互联网思维 1-互联网基础思维1.mp4 2-互联网基础思维2.mp4 3-互联网基础思维3.mp4 4-互联网基础思维4.mp4 5-互联网思维之用户思维1.mp4 6-互联网思维之用户思维2.mp4 7-互联网思维之简约思维.mp4 8-互联网...
段子发布平台主要是模仿了糗百实现了一个毕业设计,技术方面使用了spring mvc,spring,mybatis,页面展示使用了vue。作为一个互联网项目,分为了前端和后端两部分。 核心功能包括:段子发送,段子评论,段子点赞,...
系统页面采用Dreamweaver MX 2004进行制作,后台数据库由SQL Server 2000支持,动态网页的效果由ASP语言实现。采用软件工程的方法,开发了一个简单的旅游网系统,同时结合用户需求实现了用户注册登陆、浏览、查询等...
面向传统的Web页面的网络爬虫通常采用的方式是对网页中的超链接关系的对外进行扩展,从而获取整个互联网中页面的信息。基于python的Web爬虫需要对网站中的各个节点之间的进行研究,以便获得整个网站的节点关系图。在...
物流项目 Server 端架构: Struts2+ Spring + Spring Data(简化持久层) + JPA 接口+ Hibernate(JPA 显现) 后台管理系统 页面架构 :jQuery Easyui 框架 前端互联网系统 页面架构 :BootStrap 响….zip 适合学习/练...
百搜通321网址导航,纯HTML页面,简单实用,美观。价值:收录互联网大部分的网址
作为世界最大朝阳产业的旅游,当它与电子商务这一新兴模式相结合时,其潜藏的商业价值表露无遗。旅游电子商务的应用可以作为我国旅游业新的市场营销手段,增强我国旅游业的对外竞争力,为旅游业的长期发展积蓄后劲。...