解读搜索引擎(预处理) - 黑麦(Ryee) - 搜索引擎营销SEO 3.0 - ITeye博客

`

Ryee

浏览: 274076 次
性别:
来自: 上海

最近访客更多访客>>

faxMonkey

kt007time

u010833547

祥之北漂

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

onlyjing：你好！我是猎头顾问only ,有北京知名网络安全公司高级web ...
python:web搭建
dr88：有时间也来做一个，谢谢分享
Wordpress自动采集更新、发布文章插件AutoBlogged2.578最新破解版
Ryee：百度赚钱依靠页面看来承载广告，所以1、增加页面2、提升单位页面 ...
百度如何赚钱
jeans_1312：路过，学习一下
Wordpress自动采集更新、发布文章插件AutoBlogged2.578最新破解版
Ryee：坚持喝了一周的红豆薏米汤，适当的运动量辅助排汗，湿气除的不错。 ...
夏季南方去体内湿气-养生方法

解读搜索引擎(预处理)

博客分类：

SEO入门

搜索引擎算法 url robot spider

阅读更多

上回说到采集其实采集过程也很复杂想了解更多的细节可参见相关的资源。

我们通过搜索结果页可以看到展现的内容包括查询内容和超链接；
因此采集过程主要处理两部分Url 和文本；

搜索引擎通过爬虫程序（robot/spider）来遍历互联网各个节点，在遍历的过程中会处理已经遍历和尚未遍历的url，以及攫取网站的文本内容。并存储在搜索数据库中。

所谓的预处理过程，恰恰就是完成这些操作。

用户在搜索框查询一个关键词的过程非常短暂，如果在查询时再去遍历整个网络寻找匹配的网页信息，搜索引擎无疑是杯水车薪。因此他有一套完整的预处理过程来保证快速、准确地反馈出用户查询的结果。

这就是我们能够看到百度快照和谷歌快照的原因。

查询请求反馈机制是索引机制，比如图书馆的数目索引。

搜索引擎在数据前端做索引查询，用户的查询是在索引数据库完成的。

结果页是经过计算得出，整个计算过程是极其复杂的。涉及到排序因子的原则和权重调控。搜索引擎的核心算法就是通过这里来发挥做用的。

做搜索引擎优化不可能了解到这些核心算法和排序因子的权重，但我们可以通过实践总结和摸索出那些因素的权重影响较大，正如你所知道的title就是其中之一。

以上是预处理的解读。

上一节：SEO前传 - 解读搜索引擎(采集)
下一节：搜索引擎优化入门：前端性能优化

分享到：

搜索营销关注的几个数据 | SEO前传 - 解读搜索引擎(采集)

2011-11-09 16:42
浏览 1129
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

搜索引擎文本预处理: 本文在深入分析难过过搜索引擎基本原理、架构设计和核心技术的基础上,结合可扩展的scrapy框架、开源搜索引擎lucene的实现原理以及多种分词技术,设计并实现了一个可扩展可复用的小型搜索引擎文本预处理系统。

搜索引擎文本预处理程序: 搜索引擎文本预处理python，包括1.爬虫代码 2.中英文分词代码 3.词根提取代码 4.文档余弦距离计算 5.文档聚类

swjtu西南交大互联网搜索引擎项目一报告：搜索引擎文本预处理: 通过下载引擎(Web Crawler/Spider)自动下载至少500个英文文档/网页，以及500个中文文档/网页，越多越好，并保留原始的文档/网页备份(如:News_1_Org.txt）编程对所下载文档进行自动预处理: 将各个单词进行字符化，...

利用开源工具搭建小型搜索引擎: 基于开源搜索引擎工具(如Heritrix +Lucence，或Nutch+Solr)，搭建独立完整的搜索引擎测试平台。 2）垂直搜索行业信息：自主选择某一感兴趣行业，抓取相关行业内容。以抓取结果作为数据库，建立垂直搜索引擎，实现...

元搜索引擎的智能化及其设计与实验: 智能化模型通过对元搜索引擎的智能化预处理，使元搜索引擎能够自动地识别独立搜索引擎的界面格式，并对用户的搜索请求进行扩展；同时，元搜索引擎的智能化模型还通过一种基于遗传算法的智能调度策略，发挥独立搜索...

文本预处理: 包括文本去重（pre-process_1.py）和机械压缩。（pre-process_2.py）

数据预处理_BP_预处理_数据预处理_: 简单的BP神经网络分类，包括数据，预处理的程序如果需要可以联系我

大数据预处理技术---- 预处理大数据预处理技术: 大数据预处理技术---- 预处理大数据预处理技术

基于Python与spimi的新闻搜索引擎设计与实现: 2 搜索引擎相关技术介绍 2.1 Python爬虫技术 2.1.1 python 2.1.2 爬虫概述 2.2 结巴分词 2.3 SPIMI构建索引算法 2.4 计算两两新闻之间余弦相似度 2.5 BM25公式进行打分排序 2.5.1 检索概率模型BM25公式 ...

自用程序：各种光谱数据预处理代码matlab.zip_EXPSMOOT_光谱数据_光谱预处理_数据预处理_预处理程序: 能够进行光谱预处理，其上配备很多很合适的小程序

图像预处理源代码图像预处理源代码: 图像预处理源代码图像预处理源代码图像预处理源代码

SPSS数据的预处理: SPSS数据的预处理数据分析，预处理

数据预处理数据预处理数据预处理: 数据预处理数据预处理

基于Matlab的火灾图像预处理-基于Matlab的火灾图像预处理.pdf: 基于Matlab的火灾图像预处理-基于Matlab的火灾图像预处理.pdf 摘要:本文研究了在Matlab 环境下如何对图像,特别是火灾图像进行预处理。预处理的过程分为两个步骤,包括火灾图像的增强和滤波。用一些Matlab 的处理...

数据预处理代码_数据预处理_: 一丢丢数据预处理，数据导入，查看缺失值，删除缺失值所在行，取对数差分

瓦斯发电预处理系统研究: 针对目前应用于煤炭行业的瓦斯发电预处理系统不能很好地满足煤矿安全要求及其自动化程度不高等问题,提出了一套符合煤矿安全规程的瓦斯发电预处理系统的设计方案,阐述了该系统的结构、各功能单元的实现方法及软件设计...

matlab预处理共轭梯度法: matlab预处理共轭梯度法求解线性方程组的函数文件

人工智能-项目实践-搜索引擎-Web信息检索与处理课程实验1-一个简易的搜索引擎: Web信息检索与处理课程实验1——一个简易的搜索引擎实验内容利用Lucene等工具建立简单的搜索引擎： 1.网页预处理 2.创建索引（使用中科院中文分词工具ICTCLAS） 3.查询（实现简单的查询界面）实验环境编译...

POI预处理.docx: 包含POI数据的预处理方法，在arcmap中的具体操作步骤以及在具体操作过程中需要注意的一些注意事项

数字信号处理之预处理: 数字信号处理之信号预处理以方面之后刀谱系数的提取

Global site tag (gtag.js) - Google Analytics