seo教程搜索引擎优化入门与进阶第三版.pdf
http://www.100md.com
2020年2月14日
![]() |
| 第1页 |
![]() |
| 第10页 |
![]() |
| 第16页 |
![]() |
| 第22页 |
![]() |
| 第328页 |
参见附件(13910KB,521页)。
seo教程搜索引擎优化入门与进阶,做网站就要做好seo优化,但是对于seo引擎优化不会的人这本书就非常适合来学习了,作者在里面讲述了多年经验的优化路线,为读者更快学习好seo!

简介
本书深入剖析了搜索引擎优化的各个细节,包括关键字策略、URL优化、代码优化、图片优化、网页结构、网站结构、链接策略、搜索引擎优化误区、常用工具介绍及服务器的选择等。第3版完善了搜索引擎特色算法、搜索引擎抓取策略、网页更新策略说明、搜索引擎优化作弊新方式,新增了百度站长工具、Google管理员工具、去查、追词等工具的使用说明。
此书对SEO技术的各个知识点均有系统介绍,且配有详细的图文案例说明,适合SEO初学者以及具备一定基础的读者,对于网站运营、网站策划、网站推广、网站设计、程序开发人员更是必备的手册。此外,《SEO教程:搜索引擎优化入门与进阶(第3版)》还可以用作大中院校电子商务专业、计算机应用专业的教材。
作者
吴泽欣,男,1981年出生,广东江门人,专业搜索引擎优化人员。2003年开始涉足搜索引擎优化行业,为数十家网站提供过网站优化、SEO培训服务,其中不乏知名网站,例如:太平洋电脑网、易比网等;担任多家网站的SEO顾问,例如:易比网、欧酷网等。
具有丰富的实践操作经验及理论知识。撰写、翻译过数百篇具有较高水平的搜索引擎优化文章,被多家媒体及数以万计同行网站争相转载(如:天极等),在业内具有一定的知名度。
主目录
第1章初探SEO
第2章搜索引擎工作原理
第3章关键字
第4章URL优化
第5章代码优化
第6章图片优化
第7章网页结构
第8章网站结构
第9章链接策略
第10章服务器的选择
第11章搜索引擎优化作弊
第12章搜索引擎优化工具
第13章和第14章案例分析
前言
随着互联网信息的爆炸性增长,搜索引擎作为信息查询工具得到越来越广泛的应用,其商业价值也随之被发掘,从而产生了竞价排名、关键字广告及搜索引擎优化等网络营销方式。其中,搜索引擎优化作为主要的搜索引擎营销方式,因其具有低成本、高回报等优势而得到广泛的应用。
在国内,搜索引擎优化行业正逐渐进入正规发展的新时期。为了帮助初学者及具有一定经验的读者更系统、更深入地学习搜索引擎优化技术,我将通过本书与广大读者分享从业11年来的经验,深入剖析搜索引擎优化的各个细节,包括关键字策略、URL优化、代码优化、图片优化、网页结构、网站结构、链接策略、搜索引擎优化误区及服务器的选择等。
随着时间的推移,搜索引擎的算法也会不断地完善。因此,在实际操作中我们还可能会遇到各种各样的新问题,这就要求我们要时刻关注搜索引擎的动态,总结实践经验,这样才能实现自我提升,在激烈的竞争中脱颖而出!
seo教程搜索引擎优化入门与进阶截图


书名:SEO教程:搜索引擎优化入门与进阶(第3版)
作者:吴泽欣
ISBN:978-7-115-35701-4
本书由北京图灵文化发展有限公司发行数字版。版权所有,侵权必
究。
您购买的图灵电子书仅供您个人使用,未经授权,不得以任何方式复制
和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐
号等维权措施,并可能追究法律责任。
图灵社区会员 ( ?
ω ?)y(2228681634@qq.com) 专享 尊重版权前言
本书结构
第 1 章 初探SEO
第 2 章 搜索引擎工作原理
第 3 章 关键字
第 4 章 URL优化
第 5 章 代码优化
第 6 章 图片优化
第 7 章 网页结构
第 8 章 网站结构
第 9 章 链接策略
第 10 章 服务器的选择
第 11 章 搜索引擎优化作弊
第 12 章 搜索引擎优化工具
第 13 章和第 14 章 案例分析
第3版修订说明
读者对象
第 1 章 初探SEO
1.1 网络营销
1.2 搜索引擎营销
1.3 关键字广告
1.4 竞价排名
1.5 搜索引擎联盟广告
1.6 SEO简介
1.6.1 SEO基本概念
1.6.2 SEO与搜索引擎广告的区别
1.6.3 SEO发展历史
1.6.4 SEO优缺点1.6.5 SEO应用领域
1.6.6 SEO主要工作
1.6.7 SEO宗旨
1.6.8 SEO职业道德
第 2 章 搜索引擎工作原理
2.1 搜索引擎发展历史
2.2 搜索引擎分类
2.2.1 全文搜索引擎
2.2.2 目录搜索引擎
2.2.3 元搜索引擎
2.3 搜索引擎工作原理
2.3.1 搜索引擎抓取策略
2.3.2 页面分析
2.3.3 页面排序
2.3.4 关键字查询
2.4 搜索引擎特色算法
2.4.1 TrustRank算法
2.4.2 BadRank算法
2.4.3 百度绿萝算法
2.5 搜索引擎介绍
2.5.1 Google
2.5.2 百度
2.5.3 搜狗
2.5.4 360搜索
第 3 章 关键字
3.1 关键字简介
3.2 关键字词频
3.3 关键字密度3.3.1 英文关键字密度
3.3.2 中文关键字密度
3.3.3 关键字密度范围
3.3.4 关键字密度与页面相关性
3.4 关键字词频与密度的关系
3.5 主关键字
3.6 辅关键字
3.6.1 辅关键字简介
3.6.2 辅关键字作用
3.7 关键字分布及表现形式
3.7.1 关键字分布
3.7.2 关键字表现形式
3.7.3 关键字描述
3.8 关键字策略
3.8.1 关键字寻找
3.8.2 用户搜索习惯分析
3.8.3 关键字评估
3.8.4 关键字选择策略
第 4 章 URL优化
4.1 URL优化简介
4.2 URL简介
4.3 URL命名技巧
4.3.1 汉字命名形式
4.3.2 英文命名形式
4.3.3 拼音命名形式
4.4 分隔符的使用
4.4.1 常见分隔符
4.4.2 空格与横杠4.4.3 下划线“_”
4.4.4 反斜杠“”
4.5 URL长度
4.5.1 域名长度6
4.5.2 路径长度
4.5.3 文件名长度
4.5.4 URL长度
4.5.5 URL长度的影响
4.6 关键字词频
4.7 关键字结合
4.8 URL各组成部分优化
4.8.1 域名
4.8.2 子域名
4.8.3 路径
4.8.4 文件名
4.9 URL重定向
4.9.1 301重定向
4.9.2 302重定向
4.9.3 URL转发
4.10 URL静态化
4.10.1 URL重写
4.10.2 生成静态页面
第 5 章 代码优化
5.1 代码优化简介
5.2 精简代码
5.2.1 清理垃圾代码
5.2.2 HTML标签转换
5.2.3 CSS优化5.2.4 JavaScript优化
5.2.5 表格优化
5.3 页面头部优化
5.3.1 摘要信息
5.3.2标签
5.3.3标签
5.3.4标签
5.3.5 其他标签
5.4 权重标签使用
5.4.1标签
5.4.2 标签
5.4.3 标签
5.4.4 标签
5.4.5 标签
第 6 章 图片优化
6.1 图片描述
6.1.1 图片名称
6.1.2 alt属性
6.1.3 周边内容
6.2 图片压缩
6.2.1 图片压缩原理
6.2.2 图片格式问题
6.2.3 图片缩小
6.3 图片压缩工具
6.3.1 Image Optimizer
6.3.2 Photoshop
第 7 章 网页结构
7.1 网页结构7.2 网页组成元素
7.2.1 导航栏
7.2.2 栏目
7.2.3 正文内容
7.3 页面重要区域分布规律
7.3.1 页面布局
7.3.2 HTML源代码
7.4 网页结构类型
7.4.1 导航型
7.4.2 内容型
7.4.3 内容导航结合型
7.5 常用页面技术
7.5.1 隐藏层
7.5.2 Flash元素
7.5.3 框架
第 8 章 网站结构
8.1 网站结构
8.2 搜索引擎对重要页面的抓取
8.3 逻辑结构
8.3.1 链接深度
8.3.2 URL与链接深度的关系
8.3.3 逻辑结构类型
8.4 物理结构
8.4.1 目录深度
8.4.2 URL与目录深度的关系
8.4.3 物理结构类型
8.5 网站结构优化
8.5.1 逻辑结构优化8.5.2 物理结构优化
8.5.3 理想结构
8.5.4 合理结构
8.6 网站结构规划实例
8.6.1 逻辑结构
8.6.2 物理结构
第 9 章 链接策略
9.1 链接
9.1.1 链接对象
9.1.2 导入与导出链接
9.1.3 内部链接
9.1.4 外部链接
9.2 链接的意义
9.2.1 链接与页面相关性
9.2.2 链接与页面权重继承
9.3 内部链接
9.3.1 内部投票机制
9.3.2 内部链接数量
9.3.3 内部链接意义
9.4 外部链接
9.4.1 外部投票机制
9.4.2 链接主题相关性
9.4.3 外部链接数量
9.4.4 外部链接质量
9.4.5 外部链接意义
9.5 增加外部链接的方法
9.5.1 分类目录
9.5.2 交换链接9.5.3 购买链接
9.5.4 链接诱饵
第 10 章 服务器的选择
10.1 服务器所在的国家(地区)
10.2 服务器的性能
10.2.1 带宽
10.2.2 服务器资源
10.2.3 连接数
10.2.4 月流量
10.2.5 访问速度
10.2.6 附加服务
10.3 服务器功能
10.3.1 是否支持URL重写
10.3.2 数据备份
10.3.3 404页面设置
10.3.4 子域名数量
10.4 虚拟空间弊端
第 11 章 搜索引擎优化作弊
11.1 搜索引擎优化作弊简介
11.2 常见的内容作弊方式
11.2.1 关键字堆砌
11.2.2 隐藏文本
11.2.3 空页面
11.2.4 内容农场
11.2.5 标签滥用
11.2.6 不相关搜索结果页
11.3 镜像网站
11.4 门页11.5 伪装
11.6 302重定向
11.6.1 meta重定向
11.6.2 JavaScript重定向
11.7 链接作弊
11.7.1 垃圾链接
11.7.2 外部链接作弊方式
11.7.3 如何识别链接作弊网站
11.8 作弊处罚
11.8.1 降低权重
11.8.2 列入黑名单
11.8.3 被惩罚后处理办法
11.9 举报作弊网站的方法
11.9.1 Google
11.9.2 百度
第 12 章 搜索引擎优化工具
12.1 关键字查询工具
12.2 Google管理员工具
12.2.1 网站信息中心
12.2.2 网站信息
12.2.3 搜索外观
12.2.4 搜索流量
12.2.5 Google索引
12.2.6 抓取
12.3 百度管理员工具
12.3.1 站点管理
12.3.2 数据提交
12.3.3 网站配置12.3.4 网站分析
12.4 追词
12.4.1 相关关键字
12.4.2 网站监控
12.4.3 排名监控
12.5 去查网
12.5.1 综合查询
12.5.2 百度权重查询
12.6 Sitemap生成器
12.6.1 工具栏
12.6.2 菜单栏
12.7 SEO Administrator
12.7.1 链接广泛度检测器
12.7.2 交换链接工具
12.7.3 网站分析器
12.7.4 排名监控器
第 13 章 案例分析1
13.1 网站优化前的准备
13.2 第一阶段:网站基本信息
13.3 第二阶段:去除弊端
13.3.1 Iframe清理
13.3.2 隐藏层
13.4 第三阶段:网站结构
13.4.1 调整前结构
13.4.2 调整后结构
13.5 第四阶段:关键字策略
13.5.1 熟悉网站所在行业
13.5.2 关键字寻找13.5.3 关键字评估
13.6 第五阶段:页面优化
13.6.1 头部优化
13.6.2 关键字布局
13.6.3 代码优化
13.7 第六阶段:页面索引
13.7.1 提交网站地图文件
13.7.2 网站地图页面
13.7.3 重点推荐频道
13.8 第七阶段:外部链接关系建立
13.8.1 交换友情链接
13.8.2 登录分类目录
13.9 第八阶段:网站维护
13.9.1 页面调整
13.9.2 网站监控
13.9.3 关键字维护
13.9.4 链接维护
第 14 章 案例分析2
14.1 网站基本信息
14.2 关键字寻找与筛选
14.2.1 关键字寻找
14.2.2 关键字筛选
14.3 网站结构构建
14.3.1 逻辑结构
14.3.2 物理结构
14.4 网页结构构建
14.5 关键字分布及表现
14.6 URL优化14.7 头部优化
14.8 代码优化
14.8.1 垃圾代码清理
14.8.2 HTML标签转换
14.8.3 权重标签使用
14.8.4 图片描述
14.9 链接策略
附录A 常用术语
SEOer
PR值
原理
SogouRank
页面收录数
页面包含数
链接广泛度
蜘蛛程序
robot.txt
垃圾链接制造厂
停用词
附录B 常见问题
作者自述:我的SEO之路
择业
入门
机遇
个人站长
新生
选择
《SEO教程》的诞生结语前言
随着互联网信息的爆炸性增长,搜索引擎作为信息查询工具得到越来越
广泛的应用,其商业价值也随之被发掘,从而产生了竞价排名、关键字
广告及搜索引擎优化等网络营销方式。其中,搜索引擎优化作为主要的
搜索引擎营销方式,因其具有低成本、高回报等优势而得到广泛的应
用。
在国内,搜索引擎优化行业正逐渐进入正规发展的新时期。为了帮助初
学者及具有一定经验的读者更系统、更深入地学习搜索引擎优化技术,我将通过本书与广大读者分享从业11年来的经验,深入剖析搜索引擎优
化的各个细节,包括关键字策略、URL优化、代码优化、图片优化、网
页结构、网站结构、链接策略、搜索引擎优化误区及服务器的选择等。
随着时间的推移,搜索引擎的算法也会不断地完善。因此,在实际操作
中我们还可能会遇到各种各样的新问题,这就要求我们要时刻关注搜索
引擎的动态,总结实践经验,这样才能实现自我提升,在激烈的竞争中
脱颖而出!本书结构
本书章节的顺序是根据网站优化实施的流程及步骤制定的,主要围绕搜
索引擎优化的核心基础环节而展开。为了帮助读者更好地理解其中的含
义,书中还引用了大量的图文例证。
本书共分为14章。第1章主要介绍SEO的概况;第2章介绍搜索引擎发展
的历史、分类及工作原理等;第3~10章详细介绍了搜索引擎优化的每
个基础环节及操作技巧;第11章介绍常见的搜索引擎优化作弊方式;第
12章介绍几个常用的搜索引擎优化工具及使用方法;第13章和第14章,则以两个网站的优化作为案例,向读者介绍已有网站的优化流程及细
节。
第 1 章 初探SEO
这一章详细介绍了竞价排名、关键字广告、搜索引擎联盟广告及搜索引
擎优化这几种目前最主要的搜索引擎营销方式,读者还可从中了解到
SEO的发展历史、现状、前景、重要性及主要的工作内容等。
第 2 章 搜索引擎工作原理
这一章主要介绍搜索引擎的工作原理,从搜索引擎对页面的收录、索
引、分析、排序到向用户提供查询服务等多方面进行了详细的说明,这
些是学习搜索引擎优化的基础。
页面抓取:主要介绍搜索引擎抓取页面的流程及方式,以及搜索引
擎对已抓取页面的存储及维护方法。
页面分析:介绍了搜索引擎对网页分析的流程及原理,包括对网页
正文信息的提取、切词及建立关键字正反向索引等。
页面排序:介绍了决定页面排序的三大主要因素,即页面相关性、链接权重及用户行为。
查询功能:从用户在搜索引擎中发起查询请求开始,到返回相关结
果的流程及原理。第 3 章 关键字
这一章介绍了与关键字相关的一系列内容,包括关键字词频、关键字密
度、辅关键字、关键字在页面中的分布和表现,以及关键字的寻找、评
估和筛选等。
本章首先从关键字的词频出发,结合关键字密度说明关键字词频的合理
范围;然后,引进辅关键字概念,进一步说明如何利用辅关键字合理增
加主关键字的词频,从而提高页面相关性;再介绍关键字在页面中分布
的规则;最后,就是关键字的寻找、评估及筛选方法。
第 4 章 URL优化
这一章是关于URL优化,主要介绍URL各组成部分的命名及组合技巧,包括域名的选择、目录及文件的命名,以及目录名称间、目录名称与文
件名称间的组合技巧。而为了实现所谓的动态页面静态化,还介绍了在
Apache、IIS等环境下如何进行URL重写。
第 5 章 代码优化
这一章介绍了代码优化的各个细节,包括精简代码、头部优化(即页面
的标题、描述及关键字标签的优化)、CSS优化、JavaScript优化、表格
优化、权重标签的使用等。
第 6 章 图片优化
这一章主要介绍图片优化,包括图片优化的方式、图片压缩的原理,以
及两个主要的图片压缩工具Image optimizer和Photoshop。
第 7 章 网页结构
这一章介绍的是网页结构构建的方法及技巧。首先从HTML源代码及页
面布局的角度出发,说明页面重要位置的分布规律;然后,介绍几种常
见的网页结构类型及构建方法;最后介绍几种常见页面的优化方法,例
如Flash、隐藏层、框架等。
第 8 章 网站结构这一章从网站的物理结构及逻辑结构出发,向读者介绍网站结构的构建
及优化技巧。
第 9 章 链接策略
这一章从内部链接及外部链接的角度出发,对链接关系进行了详细的说
明。此外,还介绍了几种可以有效增加高质量外部链接的方法。
第 10 章 服务器的选择
这一章主要介绍从搜索引擎优化的角度怎样选择服务器。
第 11 章 搜索引擎优化作弊
这一章介绍了几种常见的搜索引擎优化作弊方式,包括内容作弊、镜像
网站、门页、伪装、302重定向及链接作弊等。此外,还介绍了网站因
违规而遭到惩罚后的处理方法,以及如何举报那些正在使用违规手段操
纵排名的网站。
第 12 章 搜索引擎优化工具
这一章介绍了常用的搜索引擎优化工具,包括关键字查询工具(如百度
关键字工具)、Google 管理员工具、百度管理员工具、追词、去查网、Sitemaps生成器及SEO Administrator部分特色功能,覆盖了从关键字寻
找、网站监控、链接寻找及维护到排名监控的全过程。
第 13 章和第 14 章 案例分析
这两章以作者优化过的网站作为案例,向读者介绍网站优化的全过程及
细节。首先,了解网站的基本情况;然后,为网站制定符合实际的关键
字策略,并根据制定的关键字策略对网站中的页面进行优化(如头部、主体内容、HTML源代码等);接着想方设法提高网站的的页面收录
数,以及增加外部链接;最后,对网站进行日常维护,进一步提高网站
的用户体验及搜索引擎友好性。第3版修订说明
本书第1版自2008年12月出版以来,销量理想,成为同类图书中销量最
多的作品之一。为了纠正第1、2版中的一些细节错误,以及应对搜索引
擎技术的更新和发展,本书对SEO相关内容进行了补充及完善,编写了
第3版,新增或者修改内容如下:
修正第2版里的细节错误;
搜索引擎特色算法介绍;
搜索引擎抓取策略补充及完善;
网页更新策略说明的完善;
搜索引擎优化作弊新方式的介绍;
增加百度站长工具、去查、追词等工具的使用说明;
更新Google管理员工具使用说明。读者对象
阅读本书的读者并不需要具备程序开发的知识,但需具备网页制作的能
力,对HTML语言有一定的了解。
对于搜索引擎优化初学者,可以通过本书了解搜索引擎优化的各个
基础环节、实施流程及操作技巧。同时,纠正目前正在或者已经犯
下的错误,以及避免将要犯下的不必要的错误。
对于具备一定搜索引擎优化经验的读者,可以把本书的理论与自己
的实践经验相结合,在技术方面实现进一步的突破。
对于企业营销部门的管理人员,本书可以帮助他们更好地开展搜索
引擎营销工作。
对于网站管理者来说,本书可以帮助他们更好地规划网站,进一步
提高网站的用户体验及搜索引擎友好性。这些人包括网站设计制作
者、网站站长、网站运营策划者、网站开发者等。
本书还可以作为各大中院校电子商务或计算机应用等专业的教材,让学生可以掌握一门实用的技能,提高竞争力。第 1 章 初探SEO
进入信息时代,互联网从根本意义上颠覆了传统行业。传统行业从
研发、生产到销售,无一不与互联网发生着紧密的联系。特别是在
产品销售方面,更是发生了翻天覆地的变化。过去只能摆在货架上
销售的产品,如今被搬到互联网上,通过线上、线下相结合来提高
产品的销量。与线下销售相比,线上销售具有成本更低、销量更
大、不受时间及地域限制等优势。
互联网凭借低成本、高回报的优势以迅雷不及掩耳之势摧毁了一家
又一家商店、超市,或者把一家又一家的商店、超市收入麾下。如
果你仍固步自封,不思进取的话,那么你的产品或企业将会被淹没
在互联网的大潮里!在互联网高速发展的今天,我们要么顺应历史
的潮流获得进一步发展的机会;要么被淘汰,别无选择!
本章内容
网络营销
搜索引擎营销
关键字广告
竞价排名
搜索引擎联盟广告
SEO简介1.1 网络营销
随着互联网的日益普及,为了通过互联网推广自身的产品或者服务,越
来越多的企业建立了网站。然而,建立网站并不意味着企业就能通过互
联网向潜在客户推广自身的产品或服务。
网站只是企业展示产品、介绍服务的重要平台之一,相当于一家商店,而网站里的页面就是商店里存放商品的货架。要想让顾客购买你的产
品,首先也是最重要的就是要吸引顾客走进这个商店,即访问你的网
站,这就涉及网络营销的问题。
网络营销是一种通过互联网推广产品或服务的营销方式,最常见的网络
营销方式包括:富媒体广告营销、搜索引擎营销、E-mail营销、效果广
告、社会化媒体营销(如论坛营销、SNS)等。其中,搜索引擎营销作
为一种精准的网络营销方式,由于具有投入低、回报高的优势而得到广
泛的应用。接下来,先向大家简单介绍一下搜索引擎营销及其优缺点。1.2 搜索引擎营销
随着互联网信息的爆炸性增长,搜索引擎作为信息查询工具得到越来越
广泛的应用。使用搜索引擎寻找信息已经成为人们获取信息最主要、也
是最快捷的途径。
由于用户总能在搜索引擎中找到他们所关心的信息,从而对搜索引擎产
生了强烈的信任感,搜索引擎巨大的营销价值就蕴藏在用户对搜索结果
信任的基础之上。如果商家的网站能在相关搜索结果中出现,那么就可
以向目标客户展示他们的产品(或服务)。因为,通过搜索结果访问网
站的用户极有可能就是其产品(或服务)的潜在客户。
由此可知,从搜索引擎引导过来的用户对于网站是极其重要的。然而,怎样才能从搜索引擎上引导更多的用户呢?这就是接下来将要介绍的搜
索引擎营销方面的内容。
通过搜索引擎平台向潜在客户推销产品或者服务的行为,我们称之为搜
索引擎营销,即SEM(Search Engine Marketing)。搜索引擎营销作为
重要的网络营销方式之一,有着不可替代的优势。首先,搜索引擎覆盖
范围广,是网民使用最频繁的互联网服务之一;其次,针对性强,信息
的接收者就极可能是潜在客户。
例如,某个用户在搜索引擎中搜索“网站优化”,则该用户可能是在寻找
与网站优化相关的资料或者提供网站优化服务的公司。如果提供网站优
化服务的公司能出现在这个搜索结果中,那么就可以向目标客户推广他
们的服务了。
由于在搜索引擎中,企业的产品(或服务)只能对寻找特定信息的用户
进行展示,从而会错失游离在选择与非选择之间的客户。因此,搜索引
擎营销并不适合品牌或产品的大型推广。
目前,最常见的搜索引擎营销方式包括关键字广告、搜索引擎联盟广告
(百度联盟广告)及搜索引擎优化。前两种方式以搜索引擎为后盾,占
据天时、地利;但搜索引擎优化具有低投入、高产出的独特优势,与它
们展开了激烈的竞争,并占据相当重要的地位。随着越来越多的企业加入搜索引擎广告投放阵地(传统关键字广告及联
盟广告),广告的点击价格也随之水涨船高,逐渐失去其投入低、产出
高的优势。尽管如此,搜索引擎广告仍然是商家目前首要的广告投放渠
道,这与其天生的优势是不可分割的。1.3 关键字广告
在搜索结果页面中,搜索引擎除了向用户提供与其查询内容相关的普通
信息外,还会在相应的位置上附加与查询内容相关的广告信息。然后,通过统计用户点击广告的次数来收取商家相应的广告费用。在搜索结果
页面的广告中,广告质量越高(客户支付的每点击费用越高,广告点击
率越大,广告着陆页与关键字相关性越强),排名就越靠前,也就能向
越多的潜在用户推销其产品(或服务)。这种购买关键字搜索结果页面
中的广告排名位置的方式,我们称之为关键字广告。
在不同的搜索引擎中,广告展示的位置及方式会有所区别。例如,Google的广告位于搜索结果页面的右侧(如图1-1所示),而百度、搜
狗则位于自然搜索结果上方及右侧(如图1-2和图1-3所示),最多时会
展示10个相关的关键字广告。
图 1-1 Google广告展示位置图 1-2 百度广告展示位置
图 1-3 搜狗广告展示位置1.4 竞价排名
竞价排名就是指以竞价的方式拍卖搜索结果排名的行为。不管网站内容
的真实、优劣与否,只要付出足够多的费用,你就可以在任意关键字上
取得任意想要的排名。竞价排名是百度以前独有的盈利模式,由于严重
影响用户体验,百度目前已经放弃了这种竞价排名的广告方式,转而采
取关键字广告的方式。
例如,在“数码相机”的搜索结果中,名列前5位的网站都是通过竞价的
方式而得以展示的,这样在搜索结果的第一页就只剩下5个自然排名结
果,如图1-4所示。图 1-4 百度数码相机搜索结果
关键字广告以搜索引擎为后盾,占据了天时、地利。以关键字广告方式
开展搜索引擎营销,费用低,见效快。付款后即可在搜索引擎提供的广
告平台上进行关键字广告投放,只要广告内容不违反搜索引擎制定的相
关条款,客户又付出足够多的费用,就可以在广告区域上取得较好的排
名。
在享受关键字广告给我们带来好处的同时,我们却不能避免其负面影
响。
以关键字广告的方式开展搜索引擎营销,时效是有限的,仅存在于
付费推广期间。
随着参与同一关键字广告投放的网站增多,每一点击所产生的费用
也会变得越来越高。例如,在Google页面中,有的关键字每一点击
甚至需要几十美元。
不能避免无效点击。无效点击在业内已经是公开的秘密。目前除了
Google能有限地进行监控以外,其他的搜索引擎都束手无策,个别
搜索引擎甚至人为操纵点击数据,牟取不义之财。既然,无效点击
是不能避免的,那么我们就需要为其付出高昂的代价。产生无效点
击的主要原因包括以下两个。
来自竞争对手的恶意点击。对于监控无效点击行为较差的搜索
引擎来说,竞争对手的恶意点击所产生的费用是相当惊人的。
广告与自然搜索结果混淆而导致的无效点击。每个搜索引擎都
会把竞价排名与自然结果 进行区分,但不同的搜索引擎区分
的形式存在着明显的差别。例如,在Google中就明显标明是赞
助商链接,而在百度中则能以假乱真。
自然搜索结果即按搜索引擎算法自动产生的排序结果。
1
11.5 搜索引擎联盟广告
搜索引擎联盟广告与普通的网站联盟广告类似,合作网站在自身网站上
放置广告代码后即可向网站访问者显示广告主的广告内容,然后通过统
计用户的点击(即CPC)、销售(即CPS)、特定行为(即CPA)等方
式与广告平台进行费用分成。搜索引擎联盟广告与普通联盟广告最大的
区别在于搜索引擎联盟广告基于用户的历史搜索、访问行为而在联盟网
站上向特定的用户展示其关注的广告内容(即人群定向,如图1-5所
示),精准性是其他联盟广告所不具备的,主要形式有以下几种。
关键字定位:根据用户的关键字搜索记录向他展示相应的广告内
容。例如,我们在投放百度联盟广告时选择了关键字“数码相机”,如果某个搜索过“数码相机”的用户访问了百度联盟的网站,那么我
们的广告就会向该用户进行展示。
主题定位:通过对当前网页主题进行定位,展示与当前网页内容相
关的广告。
到访定向:针对访问过广告主网站(或网站中特定页面)的人群展
示相应的广告内容。图 1-5 百度联盟推广之人群定向1.6 SEO简介
通过关键字广告,很多企业都切身感受到了搜索引擎营销带来的好处,但是其高昂的费用及负面影响又让很多企业望而却步。因此,我们迫切
需要另外一种成本更低、回报更高的方式来开展搜索引擎营销,这就是
搜索引擎优化(SEO)。但很多人对此了解不多,甚至是一无所知。
例如,我们在百度上搜索“点击成金”,结果排在第一名的是神州培训
网,而不是深圳市点击成金科技有限公司的官方网站。如果排在第一名
的是一个欺骗性网站,那么就会给这个公司的品牌及形象带来极大的负
面影响,如图1-6所示。
图 1-6 关键字“点击成金”的搜索结果
尽管有的企业已经着手进行网站优化,却知之甚少,闹出了不少笑话。
例如,BMW德国网站的无知,金山软件的“憨厚” ,均让人哭笑不得。
BMW德国网站由于采用隐藏关键字而遭到Google惩罚,金山软件也曾采用过门页的作弊手
2
2段。
至此,相信读者对搜索引擎优化的重要性已经有所了解。接下来,将进
一步介绍与搜索引擎优化相关的内容。
1.6.1 SEO基本概念
SEO是Search Engine Optimization的缩写,中文为搜索引擎优化。根据
操作的意图,SEO又被称为“网站优化”或者“搜索引擎最优化”。但这两
个概念之间存在着本质的区别。
网站优化是指在对网站进行调整时,以提高网站的用户体验、完善
网站功能为根本出发点,最终提高网站的搜索引擎友好性。
搜索引擎最优化则恰恰相反,以提高网站的搜索引擎友好性为根本
出发点,关键时刻甚至置网站的用户体验及网站功能于不顾。
仅靠上面简单的介绍,可能部分读者对搜索引擎优化的工作性质还不太
了解。下面以图书管理为例,介绍一下搜索引擎优化的主要作用及意
义。
假设互联网是一个巨大的图书馆,那么搜索引擎就是图书管理员,而用
户则是阅览者,一个网站就相当于一本书,搜索引擎优化者就相当于图
书的责任编辑,他们在图书出版之前就对图书的内容进行完善,提高图
书的可读性。一本图书只有当图书管理员或读者认为它有价值的时候,才会被图书馆收藏并放到相应书架的最佳位置。同样,如果一个网站要
想被搜索引擎收录,那么它本身必须具备一定的价值或者得到一部分用
户的肯定。
图书管理员对图书的管理行为取决于他的管理水平。首先,图书管理员
会根据图书的名称等信息确定图书的类别;然后,再根据图书的简介、目录、内容等判断图书的内在价值;最后,综合出版社、作者知名度等
因素决定图书摆放的位置。由于阅览者对书架上每个位置的关注度是不
一样的,管理员会把他认为最重要的图书放到书架中最明显的位置。这
样,这本图书得到阅览的机会就会大大增加。
其实图书的名称就相当于网站的名称,前言或简介就相当于首页的描
述,而出版社或者作者知名度就相当于外部网站对我们网站的认可程度。如果一个网站主题明确、内容丰富、结构合理清晰,并得到大量外
部权威网站的认可,那么它就可以得到更多向用户展示的机会。
图书的主题、目录及内容是由作者制定的,经过与责任编缉协商、修改
后完成。经过修改后的图书主题更鲜明、目录更清晰、可阅读性更高。
搜索引擎优化者也一样,对网站进行综合调整以后,使得网站对于用户
及搜索引擎都更加友好,从而提高网站在搜索引擎中的表现。
1.6.2 SEO与搜索引擎广告的区别
SEO与搜索引擎关键字广告有着本质的区别,搜索引擎优化是通过对网
站进行必要的调整,提高网站的搜索引擎友好性,从而提高网站在某些
关键字搜索结果中的排名。要了解SEO技术,我们首先要从了解SEO的
历史开始。
1.6.3 SEO发展历史
互联网出现的初期,人们要在茫茫的互联网中找到所需的信息就如同大
海捞针,直到搜索引擎的出现,这种情况才有所改观。例如,曾经风靡
一时的目录式搜索引擎雅虎,它通过人工的方式收集网站信息,再对收
集回来的网站进行分类。这样,用户在寻找信息的时候,只要浏览相应
的目录或者使用雅虎的目录搜索功能即可,既快捷又准确。
随着使用者的不断增加,雅虎为分类目录下的网站带去的用户越来越
多。网站主显然也意识到了这一点,而且,他们还发现在分类页面中排
名越靠前的网站得到用户访问的几率就越高。于是,开始对雅虎分类目
录页面的排名规则进行研究,并通过相应的调整提高网站在分类页面上
的排名,这就是初期的SEO。
由于分类目录的排序规则十分简单,对于网站主来说并没有太大的考
验。因此,真正意义上的SEO技术出现在全文搜索引擎被广泛应用以
后。大概在20世纪90年代后期,以Google为代表的全文搜索引擎日渐强
大,用户数量也逐渐赶超雅虎这样的分类目录。因此,网站主也把战斗
阵地从分类目录转移至全文搜索引擎中。然而,全文搜索引擎算法十分
复杂,于是这些网站主就聚集起来讨论和研究。这样,SEO技术就在探
索中诞生了。
由于经济、文化等各方面的差异,搜索引擎优化技术在国内出现的时间要比国外晚得多,发展也相对缓慢。
大约在2003年左右,国内出现了第一批搜索引擎优化爱好者,他们聚集
在少数几个论坛上发表各自的见解,分享搜索引擎优化的经验,但以搜
索引擎优化作为职业的人还是屈指可数。
2004年至2005年中,搜索引擎优化技术得到广泛的传播。在这段时间
里,不少个人或者公司开始尝试商业化运作,整个行业呈现出一片“繁
荣”的景象。但是,由于大部分从员人业的贪婪及无知,整个行业陷入
了一片混乱,搜索引擎优化也成为了作弊的代名词。
从2005年下半年开始,由于搜索引擎算法的改进(例如,Google的佛罗
里达及阿斯汀更新),搜索引擎优化行业随即掀起一次空前的大洗礼,滥竽充数者在这场竞争中被无情地淘汰,整个行业得到了一定的净化。
但经历近两年的摧残,整个行业已经伤痕累累!
2005年下半年至2006年相对平静,整个行业在一定程度上得到了休养生
息,从而渐渐恢复该有的生机,搜索引擎优化也渐渐地得到了更多人的
认可。
2007年至2008年,“黑帽SEO”手法层出不穷,整个行业随即又陷入了一
片混乱,但由于搜索引擎算法已经相当完善,尽管受到“黑帽SEO”的困
扰,但没有出现像2005年那样的惨况。
自2009年开始,搜索引擎优化行业开始慢慢地朝着正规化、规模化的方
向发展,涌现出不少实力强大的服务提供商,更多的人开始正确地认识
和对待SEO。
2013年,随着搜索引擎技术的不断改进与完善,过去所谓的优化方法或
手段已不大奏效,甚至被列为违规。因此,SEO逐渐回归本质,即以提
高网站的用户体验为基础,最终达到提高网站搜索引擎友好性的目的。
1.6.4 SEO优缺点
SEO能在与关键字广告的竞争中脱颖而出,受到广大客户的追捧,必定
有其魅力所在。作为主要的搜索引擎营销方式,SEO除了具备搜索引擎
营销的优点外,还有以下独特的优势。成本较低。从某个角度上看,SEO是一种“免费”的搜索引擎营销方
式。对于个人网站来说,只要站长掌握一定的搜索引擎优化技术即
可。而对于企业来说,成本主要来自从事搜索引优化员工的薪酬或
雇用专业搜索引擎优化公司所花的费用。
持久性。一般情况下,采用正规方法进行优化的网站,排名效果会
比较稳定。除非搜索引擎算法发生重大改变或者强大的竞争对手后
来居上,否则不会有太大的变化。
不需要承担无效点击的风险。不管点击网站的是潜在客户还是竞
争对手,我们都无需为此而付出任何代价。
尽管搜索引擎优化具备这么多的优势,但它毕竟是依附搜索引擎生存
的,因此也会存在一些不可克服的缺点,主要表现在以下几个方面。
施工时间长。从开始对网站进行优化到实现关键字的目标排名,一
般需要2~6个月。对于竞争十分激烈的关键字,还可能需要一年甚
至更长的时间(网站优化时间的长短主要取决于所选择的关键字的
竞争激烈程度、优化者水平及搜索引擎等一些不确定的因素)。
不确定性。搜索引擎优化人员并不是搜索引擎的开发者,与搜索引
擎也没有什么密切关系,所以,并不能向任何人保证在指定时间
内,实现某一关键字的指定排名。
被动性。搜索引擎会不定期改进算法(甚至为了自身利益而对某些
网站或者行业进行人为干预,以迫使这些用户投放关键字广告),这就要求我们要对网站进行及时调整以迎合新算法,这样才能长久
享受搜索引擎带来的好处。
1.6.5 SEO应用领域
1. 企业网站
企业网站通过优化以后,可以大大增加了向目标客户展示产品或者服务
的机会,从而提高企业的影响力,提升品牌的知名度。例如,某个生产
手机的企业,如果用户在搜索“手机”的时候,该企业的网站能够出现在
前几位,那么就可以得到更多用户的点击,而这些用户可能是竞争对
手、潜在客户或者相关信息需求者。2. 电子商务型网站
电子商务型网站经过优化后可以通过搜索引擎向更多的潜在消费者推销
自身的产品,从而节省巨额的广告费用,提高产品销量。
3. 内容型网站
资讯内容型网站经过优化后,可以大大提高网站的流量,从而进一步蚕
食强者的市场,最终后来居上,成为行业的领先者。
1.6.6 SEO主要工作
SEO的主要工作分为内部优化及外部优化,如图1-7所示。从网站内部
出发,对网站的基本要素(例如,网站结构、页面结构、关键字分布
等)进行适当的调整;如果经过调整,网站在搜索引擎中的表现达到了
我们的预期效果,则内部优化工作就基本完成;否则,我们还需要反复
地对网站进行调整,直至达到预期效果为止。
图 1-7 网站优化流程
外部优化工作主要是围绕增强外部链接关系而展开的,这项工作必须贯彻优化的全过程,例如,交换友情链接、登录分类目录等。
1.6.7 SEO宗旨
SEO工作应该以用户为中心,围绕提高用户体验、完善网站功能而展
开,不能为了优化而优化。
你对网站调整是否只是为了优化而优化呢?反问一下自己:如果不是为
了搜索引擎,我会这样做吗?这样做能给用户带来什么好处吗?这样做
会影响用户体验吗?
1.6.8 SEO职业道德
从事搜索引擎优化的人员是否具备良好的职业道德是决定网站优化成败
的关键因素之一。在对网站进行优化的时候,应该以满足用户需求为根
本出发点,不做任何欺骗搜索引擎的行为,这样才有机会长期享受搜索
引擎带来的好处。第 2 章 搜索引擎工作原理
本章主要介绍搜索引擎的工作流程及原理,覆盖了从搜索引擎对页
面的收录、索引、分析、排序到关键字查询的全过程。此外,还讲
述了搜索引擎各主要工作与搜索引擎优化之间的对应关系,为学习
搜索引擎优化提供了理论根据。
本章内容
搜索引擎发展历史
搜索引擎分类
搜索引擎工作原理
搜索引擎特色算法
搜索引擎介绍2.1 搜索引擎发展历史
随着互联网信息的爆炸性增长,用户想要在互联网中寻找到所需信息就
如同大海捞针,这时,为满足大众信息检索需求的专业搜索引擎应运而
生。
现实意义上的搜索引擎是1990年由蒙特利尔大学学生Alan Emtage开发
的Archie。虽然当时World Wide Web还未出现,但网络中文件传输已经
相当频繁,而且由于大量的文件散布在各个不同的FTP服务器中,形成
了巨量的信息源。Alan的Archie依靠脚本程序搜索网络上的文件,再对
其进行索引,供使用者查询。由于Archie深受用户欢迎,受其启发,美
国内华达高教系统计算服务中心于1993年开发了另一个类似的搜索工
具,该搜索工具除了能索引文件外,还能检索网页。
当时,“机器人”一词十分流行,“机器人”是指快速不间断地执行某项任
务的程序。由于专门用于检索信息的机器人程序像蜘蛛一样在网络间爬
来爬去,因此,搜索引擎机器人程序也被称为蜘蛛程序。世界上第一个
监测互联网发展规模的机器人程序是Matthew Gray开发的World wide
Web Wanderer。刚开始它只用于统计互联网上服务器的数量,后来发展
成为能够检索网站域名。与Wanderer相对应,Martin Koster于1993年10
月创建了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用机器人程
序,而是靠网站主动提交信息来建立自己的链接索引,类似雅虎分类目
录。
随着互联网的快速发展,检索新出现的网页变得越来越困难,因此,在
Matthew Gray的Wanderer基础上,将传统的蜘蛛程序作了改进。其设想
是,既然所有网页都可能存在指向其他网站的链接,那么从跟踪一个网
站的链接开始,就有可能检索整个互联网。到1993年年底,一些基于此
原理的搜索引擎开始纷纷涌现,其中以JumpStation、The World Wide
Web Worm(Goto的前身,也就是今天Overture,已被雅虎收购),和
Repository-Based Software Engineering (RBSE) spider最负盛名。然而
JumpStation和WWW Worm只是以搜索工具在数据库中找到匹配信息的
先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个
在搜索结果排列中引入关键字串匹配程度概念的搜索引擎。现代意义上
的搜索引擎最早出现于1994年7月。当时,Michael Mauldin将John
Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。同年4月,斯坦福大学的两名博士生,David Filo和美籍华人杨
致远(Jerry Yang)共同创办了超级目录索引雅虎,并成功地使搜索引
擎的概念深入人心。从此搜索引擎进入了高速发展的时期。目前,互联
网上有名有姓的搜索引擎已达数百家,其检索的信息量也今非昔比。例
如,Google号称数据库中存放的网页已达40亿!2.2 搜索引擎分类
搜索引擎按照工作方式可以分为三类,分别是全文搜索引擎、目录索引
类搜索引擎及元搜索引擎。
2.2.1 全文搜索引擎
全文搜索引擎是名副其实的搜索引擎,国外具代表性的全文搜索引擎有
Google、雅虎,而国内比较著名的全文搜索引擎有百度等。它们都通过
从互联网上提取各网站的信息(以网页文字为主)建立数据库,再从这
个数据库中检索与用户查询条件相匹配的相关记录,最后把这些记录按
照一定的排列顺序返回给用户。
从搜索结果来源的角度,全文搜索引擎拥有自己的检索程序
(Indexer),俗称蜘蛛程序或机器人程序,并自行建立网页数据库,搜
索结果就直接从自身的数据库中调用。
2.2.2 目录搜索引擎
目录搜索引擎虽然具备搜索功能,但严格地说并不是搜索引擎,仅仅是
按照类别向用户展示相关网站列表的普通网站而已。目录搜索引擎中最
具代表性的要数雅虎了(雅虎通过一轮番的并购及研发,已经跻身顶尖
全文搜索引擎行列),其他还有ODP (即DMOZ)等。
2.2.3 元搜索引擎
元搜索引擎在接受用户查询请求的时候,会同时在其他多个搜索引擎上
进行搜索,并将结果返回给用户,著名的元搜索引擎有Dogpile、Vivisimo等。在搜索结果排列方面,有的直接按照来源排列搜索结果,例如Dogpile;有的则按照自定的规则将结果重新排列组合后再返回给
用户,例如Vivisimo。
除上述三大类搜索引擎以外,还有以下两种非主流形式的搜索引擎。
集合式搜索引擎。这一类搜索引擎与元搜索引擎类似,但区别在于
不是同时调用多个搜索引擎进行搜索,而只是让用户从提供的搜索引擎中进行选择,例如,HotBot在2002年年底推出的搜索引擎。
免费链接列表(Free For All Links,FFA)。也就是常见的链接交
换系统,这类网站一般只简单地排列出网站的链接条目,少部分还
会有简单的分类目录,不过规模比起雅虎这样的人工分类目录要小
得多。2.3 搜索引擎工作原理
搜索引擎优化的一个主要任务就是提高网站的搜索引擎友好性,因此,搜索引擎优化的每个环节都会与搜索引擎工作流程存在必然的联系,研
究搜索引擎优化实际上就是对搜索引擎工作过程进行逆向推理。因此,学习搜索引擎优化应该从了解搜索引擎的工作原理开始。
搜索引擎的主要工作包括:页面抓取、页面分析、页面排序及关键字查
询。
页面抓取:就是指搜索引擎通过蜘蛛程序在互联网上抓取页面并进
行存储的过程,为搜索引擎开展各项工作提供了数据支持。
页面分析:主要是指对抓取回来的网页进行信息提取处理,包括提
取页面的正文信息,并对正文信息进行分词等,为后续建立关键字
索引及关键字倒排索引提供基础数据。
页面排序:搜索引擎结合页面的内外部因素计算出页面与某个关键
字的相关程度,从而得到与该关键字相关的页面排序列表。
关键字查询:搜索引擎接收来自用户的查询请求,并对查询信息进
行切词及匹配,再向用户返回相应的页面排序列表。
本章接下来将向读者介绍搜索引擎各个主要工作的流程、原理及作用,以及在对网站进行优化时应该如何应对。
2.3.1 搜索引擎抓取策略
搜索引擎对网页的抓取实际上就是在互联网上进行数据采集 ,这是搜
索引擎最基础的工作。搜索引擎的数据采集能力直接决定了搜索引擎可
提供的信息量及对互联网覆盖的范围,从而影响搜索引擎查询结果的质
量。因此,搜索引擎总是想方设法地提高它的数据采集能力。
搜索引擎利用数据采集程序在互联网上抓取数据,我们称这个数据采集程序为蜘蛛程序或者
机器人程序。
本节首先会介绍搜索引擎抓取页面的流程及方式,再介绍搜索引擎对已
1
1抓取页面的存储及维护方式。
1. 页面抓取流程
在互联网中,URL是每个页面的入口地址,搜索引擎蜘蛛程序就是通过
URL抓取到页面的。搜索引擎蜘蛛程序从原始URL列表出发,通过URL
抓取并存储原始页面;同时,提取原始页面中的URL资源并加入到URL
列表中。如此不断地循环,就可以从互联网中获取到足够多的页面,如
图2-1所示。
图 2-1 搜索引擎抓取页面简单流程
URL是页面的入口,而域名则是一个网站的入口。搜索引擎蜘蛛程序通
过域名进入网站,从而展开对网站页面的抓取。换言之,搜索引擎要在
互联网上抓取到页面的首要任务就是建立一个足够大的原始域名列表,再通过域名进入相应的网站,从而抓取这个网站中的页面。
而对于网站来说,如果想要被搜索引擎收录,首要的条件就是加入搜索
引擎的域名列表。下面向大家介绍两种常用的加入搜索引擎域名列表的
方法。
第一,利用搜索引擎提供的网站登录入口,向搜索引擎提交网站的域
名。例如,Google的网站登录地址是http:www.google.comaddurl 。对
于提交的域名列表,搜索引擎只会定期进行更新。因此,这种做法比较
被动,从域名提交到网站被收录花费的时间也比较长。以下是主流中文
搜索引擎的网站提交入口。
在实际中,我们只需要提交网站的首页地址或者网站的域名,搜索引擎就会跟踪首页中的链
2
2接去抓取其他页面。
百度:http:www.baidu.comsearchurl_submit.htm。
360:http:info.so.360.cnsite_submit.html。
搜狗:http:www.sogou.comfeedbackurlfeedback.php。
Google:http:www.google.comaddurl(需要注册使开通站长工具
才能提交)。
第二,通过与外部网站建立链接关系,使搜索引擎可以通过外部网站发
现我们的网站,从而实现对网站的收录。这种做法主动权掌握在我们自
己的手里(只要我们拥有足够多高质量的链接即可),而且收录速度也
比向搜索引擎主动提交要快得多。视乎外部链接的数量、质量及相关
性,一般情况下,2~7天左右就会被搜索引擎收录。
2. 页面抓取
通过上面的介绍,相信读者已经掌握了加快网站被搜索引擎收录的方
法。然而,怎样才能提高网站中页面被收录的数量呢?这就要从了解搜
索引擎收录页面的工作原理开始。
如果把网站页面组成的集合看作是一个有向图,从指定的页面出发,沿
着页面中的链接,按照某种特定的策略对网站中的页面进行遍历。不停
地从URL列表中移出已经访问过的URL,并存储原始页面,同时提取原
始页面中的URL信息;再将URL分为域名及内部URL两大类,同时判断
URL是否被访问过,将未被访问过的URL加入URL列表中。递归地扫描
URL列表,直至耗尽所有URL资源为止。经过这些工作,搜索引擎就可
以建立庞大的域名列表、页面URL列表及存储足够多的原始页面。
3. 页面抓取方式
通过以上内容,大家已经了解了搜索引擎抓取页面的流程及原理。然
而,在互联网数以亿计的页面中,搜索引擎怎样才能从中抓取到更多相
对重要的页面呢?这就涉及搜索引擎的页面抓取方式问题。
页面抓取方式是指搜索引擎抓取页面时所使用的策略,目的是为了能在
互联网中筛选出更多相对重要的信息。页面抓取方式的制定取决于搜索引擎对网站结构的理解。如果使用相同的抓取策略,搜索引擎在同样的
时间内可以在某一网站中抓取到更多的页面资源,则会在该网站上停留
更长的时间,抓取的页面数自然也就更多。因此,加深对搜索引擎页面
抓取方式的认识,有利于为网站建立友好的结构,增加页面被抓取的数
量。
常见的搜索引擎抓取页面的方式主要有广度优先、深度优先、大站优
先、高权重优先、暗网抓取及用户提交等,接下来将详细介绍这几种页
面抓取方式及其优缺点。
广度优先
如果把整个网站看作是一棵树,首页就是根,每个页面就是叶子。
广度优先是一种横向的页面抓取方式,先从树的较浅层开始抓取页
面,直至抓取完同一层次上的所有页面后才进入下一层。因此,在
对网站进行优化的时候,我们应该把网站中相对重要的信息展示在
层次较浅的页面上(例如,在首页上推荐一些热门产品或者内
容)。因此,通过广度优先的抓取方式,搜索引擎就可以优先抓取
到网站中相对重要的页面。
我们来看一下广度优先的抓取流程。首先,搜索引擎从网站的首页
出发,抓取首页上所有链接指向的页面,形成页面集合(A),并
解析出集合(A)中所有页面的链接;再跟踪这些链接抓取下一层
的页面,形成页面集合(B)。就这样递归地从浅层页面中解析出
链接,从而抓取深层页面,直至满足了某个设定的条件后才停止抓
取进程,如图2-2所示。图 2-2 广度优先抓取流程
深度优先
与广度优先的抓取方式恰恰相反,深度优先是一种纵向的页面抓取
方式,首先跟踪的是浅层页面中的某一个链接,从而逐步抓取深层
次页面,直至抓取完最深层次的页面后才返回浅层页面继续向深层
页面抓取。使用深度优先的抓取方式,搜索引擎可以抓取到网站中
比较隐蔽、冷门的页面,这样才能满足更多用户的需求。
我们来看一下深度优先的抓取流程。首先,搜索引擎会抓取网站的
首页,并提取首页中的链接;再沿着其中的一个链接抓取到页面1-
1,同时提取其中的链接;接着,沿着页面1-1中的一个链接A-1抓
取到页面2-1,同时提取其中的链接;再沿着页面2-1中的一个链接
B-1继续抓取更深一层的页面。这样递归地执行,直至抓取到网站
最深层的页面或者满足了某个设定的条件才转回到首页继续抓取,如图2-3所示。图 2-3 深度优先抓取流程
大站优先
由于大型网站比小型网站更有可能提供更多更有价值的内容,因
此,如果搜索引擎优先抓取大型网站中的网页,那么就可以在更短
的时间内为用户提供更有价值的信息。大站优先,顾名思义就是对
互联网中大型网站的页面进行优先抓取,是搜索引擎中的一种信息
抓取策略。
怎样识别所谓的大型网站呢?一是前期人工整理大站种子资源,通
过大站发现其他的大站;二是对已经索引的网站进行系统的分析,从而识别那些内容丰富、规模较大、信息更新频繁的网站。
在完成大站识别后,搜索引擎就会对URL资源列表中大站的页面进
行优先抓取。这也是为什么大型网站往往会比小站内容抓取更及时
的原因之一。
高权重优先
权重,简单地说就是搜索引擎对网页重要性的一种评定。所谓的重要性归根到底就是网站或者网页的信息价值。
高权重优先是对URL资源列表中的高权重网页进行优先抓取的网页
抓取策略。网页权重(如Google PageRank值)高低往往是由诸多
因素决定的,例如,网页的外部链接数量及质量。如果下载一个
URL就重新计算所有已下载URL资源的权重值,这样的效率是极其
低下的,显然是不现实的。所以,搜索引擎会倾向于每下载若干
URL资源后就对已下载的URL进行权重计算(即不完全的权重计
算),以此来确定这些URL资源所对应页面的权重值,从而对较高
权重值的网页进行优先抓取。
由于权重计算是基于部分数据而得出的结果,可能会与真实权重有
较大出入(即失真)。因此,这种高权重优先的抓取策略也有可能
会对次要页面进行优先抓取。
暗网抓取
暗网(又称作深网、不可见网、隐藏网)是指那些存储在网络数据
库里、不能通过超链接访问而需要通过动态网页技术或者人工发起
查询访问的资源集合,不属于那些可以被标准搜索引擎索引的信
息。
1. 查询组合
暗网数据普遍存在于大型网站中,最常见的表现形式就是网站的搜
索功能(包括组合条件查询及文本检索)。例如,旅游网站的机票
数据,由于数据量极其巨大,通过链接的方式显示所有的机票信息
是不现实的。因此,该类网站通常会提供相应的搜索功能供用户使
用,以便用户能够快速检索个人化的需求信息。图2-4是某旅游垂
直网站的机票搜索功能,用户可以通过航程类型、出发城市、到达
城市、出发时间及返回时间等多条件组合来检索机票信息。图 2-4 机票搜索工具
在互联网上,暗网数据量是极其巨大的,但不是所有的暗网数据都
是有价值的,这就要求搜索引擎需要有特殊的蜘蛛程序对这些暗网
数据进行挖掘及识别。
例如,图2-5所示是某人才网的高级搜索功能,至少包含了8个查询
条件,如果搜索引擎将每一个条件组成不同的查询组合提交给网
站,这样不但会给网站的服务器带来极大的压力,而且对于蜘蛛程
序来说也是一个灾难(暂且不论每种条件组合的查询条件得到的查
询结果能得到有价值的信息)。图 2-5 职位搜索工具1
因此,搜索引擎通常只会对有可能返回有价值信息的查询条件进行
组合。如图 2-6所示,对于一些主要的条件如行业分类、职位分
类、工作地点进行组合查询即可找到该站的有价值信息。
图 2-6 职位搜索工具2
2. 文本检索
对于大多数网站而言,文本检索(即站内搜索)是最常见的搜索功
能。因此,文本检索也是最常见的暗网数据获取方式之一。图2-7
所示为当当网的站内搜索功能,搜索引擎通过人工整理一些种子关
键字,向目标网站提交进行查询,除了抓取查询结果页面外,还会
从已抓取回来的页面中提取出新的关键字,进而形成新的待查询关
键字列表。图 2-7 当当网搜索栏
用户提交
为了抓取更多的网页,搜索引擎还允许网站管理员主动提交页面
(如Sitemap方式提交)。网站管理员只需把网站中页面的URL按
照指定的格式制作成文件,提交给搜索引擎,搜索引擎就可以通过
该文件对网站中的页面进行抓取及更新。
这种由网站管理员主动提交页面的方式大大提高了搜索引擎抓取页
面的效率,也大大增加了网站页面被抓取的数量(目前主流的搜索
引擎都支持这种页面抓取方式,如Google、百度及搜狗等)。
说明 为了提高抓取页面的效率及质量,搜索引擎会结合多种策略
去抓取页面。例如,先使用广度优先的方式,把抓取范围铺得尽可
能宽,获取尽可能多的重要页面;再使用深度优先的方式,抓取更
多隐蔽的页面;最后,结合暗网抓取、用户提交等方式抓取那些被
遗漏的页面。
4. 如何避免重复性抓取
在互联网中,信息重复是在所难免的。然而,搜索引擎是怎样识别重复
信息的呢?怎样判断哪些网页的信息是原创的,哪些是复制的?又会认
为哪些重复的信息是有价值的,哪些是可以舍弃的?本节将会给出这些
问题的答案。
网站中的重复信息主要包括转载内容及镜像内容两大类。搜索引擎在对
页面进行分析的时候,必须具备识别重复信息的能力。因为大量的重复
信息不但占用巨大的服务器硬盘空间,而且还会增加用户寻找信息的时
间,降低用户体验。但这并不意味着所有重复信息都是没价值的,搜索
引擎认为转载内容不如原创内容重要,赋予原创内容页面更高的权重,而镜像内容则几乎忽略。
转载页面
转载页面是指那些与原创页面正文内容 相同或相近的页面。然
而,搜索引擎如何识别转载页面呢?首先,它把网页正文内容分
成N个区域并进行比较,如果其中有M个区域(M是搜索引擎指定
3的一个阈值)是相同或者相似的,则认为这些页面互为转载页面。
如图2-8所示,页面1与页面2是不同网站上的两个页面。其中,框
中的A、B分别是两个不同页面上的正文内容。为了识别这两个页
面是否互为转载页面,搜索引擎先把这两个页面的正文内容分成4
个区域进行比较。假设这4个区域中有3个是完全相同或者相似的,那么就认为这两个页面是互为转载的。
图 2-8 页面正文内容对比
在确定页面的互为转载关系后,接下来,搜索引擎再结合页面的最
后修改时间(搜索引擎在抓取页面时已经存储的附加信息,详见后
面“页面存储”的内容)、页面权重等因素判断原创页面与转载页
面。
镜像页面
内容完全相同的页面互为镜像页面。要判断页面是否互为镜像页
面,搜索引擎首先把这些页面分成N个区域进行比较,如果这N个
区域的内容完全一样,则认为这些页面互为镜像页面。然后,再综
合多项因素(例如页面权重值、页面最后修改时间等)来识别哪个
是源页面,哪个是镜像页面。
如图2-9所示,页面1及页面2是不同网站上的两个页面。把这两个页面分成三个区域(即A-1、A-2、A-3与B-1、B-2、B-3)进行比
较,如果这三个区域内容完全一样,则认为这两个网页互为镜像页
面。
图 2-9 页面对比
镜像网站
狭义上的镜像网站是指内容完全相同的网站,形成镜像网站主要有
两种情况:第一种是多个域名或IP指向同一服务器的同一个物理目
录;另外一种是整个网站内容被复制到使用不同域名或者不同IP的
服务器上。
为了识别站点间是否互为镜像网站,搜索引擎首先判断这些网站的
首页以及与首页直接链接的页面是否互为镜像页面。如果是,则互
为镜像网站。然后,再综合多项因素(例如网站权重值、建立时间
等)来识别哪个是源网站,哪个是镜像网站。这样,以后抓取页面
的时候就集中在源网站中进行,这也是为什么搜索引擎对于镜像网
站只抓取极少页面甚至是不抓取的原因。
搜索引擎通过算法消除页面中的辅助信息(如导航栏、图片等)后,就得到页面的正文内
容。
5. 网页更新策略
3由于搜索引擎不可能一次性抓取到网站中所有的页面,而且网站中页面
的数量也会不断地变化,内容也在不断地更新,因此,搜索引擎还需要
对已经抓取的页面进行维护、更新,以便能及时获取页面中最新的信
息,抓取更多的新页面。常见页面维护方式包括:定期抓取、增量抓
取、分类定位抓取、历史更新策略及用户体验策略。
定期抓取
定期抓取也称为周期性抓取,即搜索引擎周期性地对网站中已经抓
取的页面进行全面更新。更新的时候,把抓取到的新页面替换原有
的旧页面,删除不存在的页面,并存储新发现的页面。周期性更新
针对的是全部已抓取的页面,因此更新周期会比较长。例如,Google一般是30~60天才会对已抓取的页面进行更新。
定期抓取算法的实现相对简单。由于每次更新涉及到网站中所有已
经抓取的页面,因此页面权重的再分配也是同步进行的。这适用于
维护页面比较少、内容更新缓慢的网站,例如普通的企业网站。但
是,由于更新周期十分漫长,就不能及时向用户反映更新期间页面
的变化情况。例如,某个页面的内容更新以后,至少需要30~60天
才能在搜索引擎上有所体现。
增量抓取
增量抓取是通过对已抓取的页面进行定时监控,实现对页面的更新
及维护。但是,对网站中的每个页面都进行定时监控是不现实的。
基于重要页面携带重要内容的思想以及8020法则 ,搜索引擎只需
对网站中部分重要页面进行定时的监控,即可获取网站中相对重要
的信息。
因此,增量抓取只针对网站中某些重要的页面,而非所有已经抓取
的页面,这也是为什么搜索引擎对重要页面的更新周期会更短的原
因。例如,内容经常更新的页面,搜索引擎也会经常对其进行更
新,从而可以及时发现新内容、新链接,并删除不存在的信息。
由于增量抓取是在原有页面的基础上进行的,因此会大大缩减搜索
引擎的抓取时间,还可以及时向用户展示页面中最新的内容。
分类定位抓取
4与增量抓取由页面重要性决定不同,分类定位抓取是指根据页面的
类别或性质而制定相应更新周期的页面监控方式。例如,新闻资讯
类页面的更新周期可以精确到每分钟,而下载类页面的更新周期就
可以定为一天或更长。
分类定位抓取对不同类别的页面进行分开处理,这样就可以节省大
量的抓取时间,并大大提高页面内容的实时性,增强页面抓取的灵
活性。但是,按照类别制定页面更新周期的方式比较笼统,很难跟
踪页面的更新情况。因为即使是相同类别的页面,在不同的网站上
内容的更新周期也会存在很大的差别。例如新闻类页面,在大型门
户网站中内容的更新速度就会比其他小型网站快得多。所以,还需
要结合其他的方式(例如增量抓取等)对页面进行监控和更新。
实际上,搜索引擎对网站中页面的维护也是结合多种方式进行的,相当于间接为每一个页面选择最合适的维护方式。这样,既可以减
少搜索引擎的负担,又可以为用户提供及时的信息。
例如,一个网站中会存在多种不同性质的页面,常见的包括:首
页、论坛页面、内容页面等。对于更新比较频繁的页面(例如首
页),可以使用增量抓取方式对其进行监控,这样就可以对网站中
相对重要的页面进行及时更新;而对于实时性非常高的论坛页面,则可以采用分类定位的抓取方式;为了防止遗漏网站中的某些页
面,还需要采用定期抓取的方式。
历史更新频率策略
历史更新频率策略基于这样一种思想:某个网页在过去某段时间内
频繁更新,那么在将来的某个时间里也可能会频繁更新。例如,对
于某网站的首页,通过对它进行的监控可以分析出它的内容更新规
律,搜索引擎就可以据此调整对它的抓取频率及时间点,从而及时
获得网页中的最新内容。
用户体验策略
所谓的用户体验策略是指为了提高搜索引擎用户体验而制定的针对
性的网页更新策略。衡量搜索引擎用户体验有众多指标,而网页更
新的及时性是其中一项重要因素。对于搜索引擎中的关键字搜索结果,用户通常只会点击排名前30的
网页。因此,只要及时更新排名前30的网页,即可节省搜索引擎的
资源,提高重要网页的更新频率,也可满足绝大部分用户获取信息
的需求。
8020法则是意大利著名经济学家维尔弗雷德·帕累托发现的,其核心思想是20%的活动能产生
满足80%需求的物质。例如,20%的产品或者服务创造了80%的利润,20%的内容满足80%用
户的需求。
6. 页面存储
通过以上内容,我们已经知道了搜索引擎对页面的抓取及维护方式,接
着,我们还要了解一下搜索引擎在抓取页面后,需要存储哪些信息才能
满足接下来的工作对数据的需求。
页面是搜索引擎对网站进行信息处理的基础,搜索引擎大部分工作都是
在页面上开展的。但是,仅仅依靠页面中的内容并不能满足搜索引擎对
数据处理的需求。搜索引擎能否在抓取页面的过程中获取到更多、更有
价值的信息会直接影响搜索引擎的工作效率及排序结果的质量。所以,搜索引擎在抓取页面时,除了存储原始页面外,还会附加一系列的信息
(例如,文件类型、文件大小、最后修改时间、URL、IP地址、抓取时
间等),再把这些信息作为开展某项工作的依据。例如,如果某个文件
过大,就可能会被搜索引擎放弃索引;而最后修改时间则暗示了页面更
新的日期等。
2.3.2 页面分析
页面抓取只是搜索引擎工作的一个基础环节,页面抓取回来后并不代表
搜索引擎马上就可以向终端用户提供查询服务。因为用户在使用搜索引
擎进行查询的时候,使用的是一个词或者短语,而到目前为止,搜索引
擎仅能提供整个原始页面,不能返回与用户查询条件相匹配的信息。因
此,搜索引擎还需要对原始页面进行一系列的分析和处理,以迎合用户
信息查询的习惯。
如图2-10所示,搜索引擎首先对存储的原始页面建立索引,再过滤原始
网页的标签信息,从中提取出网页中的正文信息;然后,对正文信息进
行切词,并建立关键字索引,得到页面与关键字间的对应关系;最后,对所有关键字进行重组,从而建立关键字与页面之间的对应关系。
4图 2-10 网页分析、处理流程
1. 网页索引
为了提高页面检索的效率,搜索引擎需要对抓取回来的原始页面建立索
引,由于URL就是页面的入口地址,为原始页面建立索引实际上就是为
页面的URL建立索引,这样就可以实现根据URL快速定位到对应的页
面。
2. 网页分析
网页分析是整个网页处理中最重要的环节,包括网页正文信息的提取
(即标签信息过滤)、切词、建立关键字索引列表及关键字重组这几个
重要的步骤。结果形成了一个关键字对应多个原始页面的关系,即形成
了与用户查询习惯相符合的信息雏形。
正文信息提取
网页正文信息的提取实际上就是对网页中非正文信息的过滤。其
中,最为重要的就是对网页中标签信息(例如,HTML标签、JavaScript标签、PHP标签)的过滤。经过标签过滤以后,搜索引擎
就可以得到网页的正文信息。
切词分词
经过对原始页面提取正文信息后,搜索引擎就可以得到页面的实质
内容。而为了得到与用户查询相关的数据,搜索引擎还需要对页面
中的内容进行切分(也就是我们常说的切词或者分词),从而形成
与用户查询条件相匹配的以关键字为单位的信息列表。
每个搜索引擎的切词系统都会存在或多或少的差别,切词系统的优
劣主要取决于开发者对语言的理解能力。特别是在中文语言环境
里,切词算法直接影响网页内容经过切词处理后会产生什么样的关
键字,这些关键字是否与用户的搜索习惯一致。因而,切词的结果
直接决定搜索引擎能否提供与用户查询条件相匹配的信息。在中文环境里,常见的分词方法包括字符串匹配分词及统计分词两
种,下面简单介绍一下这两种中文分词算法。
字符串匹配分词是基于一个足够大、足够权威的“词典”上进行
的。如果页面上的词与“词典”中的词匹配,则为命中。这样就
可以得到一个词或者短语。
统计分词是根据相邻的两个(或者多个)字出现的概率判断这
两个(或者多个)字组合后是否会形成一个词。统计分词也常
常会结合“词典”进行匹配,常用于识别一些新词汇。例
如,“微博”等一些在传统中文语言中不存在的词汇。
关键字索引
网页正文信息在经过切词系统处理后,形成了关键字列表。关键字
列表中的每条记录都包括了该关键字所在的关键字编号、网页编
号、关键字出现次数以及关键字在文档中的位置等信息,如表2-1
所示。
表 2-1 关键字列表
关键字编号 网页编号 关键字 次数 位置
记录1 1 1 K1 3 A1,A5,A7
记录2 2 1 K2 2 A3,A9
记录3 3 1 K3 3 A6,A13,A10
记录4 4 1 K4 1 A2
例如,记录1中的关键字K1在页面中出现了3次,对应页面中的
A1、A5、A7区域,如图2-11所示。图 2-11 关键字K1在页面中的分布示意图
为了提高对关键字的检索效率,搜索引擎还会为关键字列表建立索
引。这样,经过对网页及关键字列表都建立索引后,就可以实现从
一个网页快速定位到某一关键字。
例如,网页0经过信息过滤后得到的内容是“中国广东省深圳市”;
然后,对内容进行切词后产生关键字“中国”“广东省”“深圳市”,并
对关键字建立索引。这样,根据网页0,搜索引擎就可以快速定位
到关键字“中国”“广东省”或“深圳市”上,如图2-12所示。
图 2-12 页面与关键字间的对应关系
然而,用户是通过关键字去寻找那些承载相应信息的页面的,所
以,搜索引擎还需要对已有信息进行相应的处理,建立关键字与页
面URL间的对应关系表,从而实现根据关键字快速定位到多个页面的功能,这就是下面所说的关键字重组问题。
关键字重组
为了迎合用户寻找信息的习惯,即以关键字为条件寻找与关键字相
关的页面。因此,搜索引擎需要建立以关键字为主索引的一个关键
字对应多个页面的关系表,即关键字反向索引表。而建立关键字反
向索引表最重要的任务就是对所有页面中的关键字列表进行重组。
之前对关键字建立索引后,已经产生了网页与关键字的一对多的对
应关系。接下来,搜索引擎把所有页面中的关键字进行重组 ,并
建立关键字索引,从而形成一个不重复的关键字列表集合,即在关
键字列表中,每个关键字都是唯一的。这样,通过某一个特定的关
键字就可以找到一个或者多个网页,从而实现根据关键字返回相应
页面的功能,如图2-13所示。
图 2-13 关键字与页面间的对应关系
关键字重组即把所有页面中的关键字组成一个集合。
经过对原始页面进行分析、处理后,搜索引擎已经可以根据用户的查询
条件返回相应的页面列表。但是,简单地向用户返回这个页面列表,往
往不能满足用户的需要,所以,搜索引擎还会根据页面与用户查询条件
相关性的高低再对这个列表进行重新排列,然后把处理后的列表返回给
用户。这就是下面将要向大家介绍的搜索引擎对页面排序的问题。
2.3.3 页面排序
用户向搜索引擎提交关键字查询信息以后,搜索引擎就在搜索结果页面
返回与该关键字相关的页面列表,这些页面按照与关键字的接近程度由
上至下进行排列。决定页面排列次序的因素非常多,本书将介绍几种最
5
5常见也是最重要的因素,包括页面相关性、链接权重及用户行为。
1. 页面相关性
页面相关性是指页面内容与用户所查询的关键字在意义上的接近程度,主要由关键字匹配度、关键字密度、关键字分布及关键字的权重标签等
决定。
关键字匹配度
关键字匹配度是指页面P中的内容与用户所查询的关键字K之间的
匹配程度,主要由以下两个因素决定。
页面P中是否存在与查询条件关键字K相匹配的内容,即页面
内容中是否包含关键字K。
关键字K在页面P中出现了多少次,即页面P中有多少个关键字
K。
为了计算关键字匹配度,搜索引擎为每个页面分配一个关键字匹配
值,该值由关键字在页面中出现的次数决定。假设某个关键字在页
面中出现一次,关键字匹配值为10,那么,若该关键字在页面中出
现10次,则关键字匹配值=1010。
如果这种假设成立,则某关键字在页面中出现的次数越多(即词频
越高),页面的相关性就越高,这样搜索结果就极容易被网站所有
者操控。例如,一个网站想要提高页面的相关性,只需在页面中添
加足够多的关键字即可。
因此,关键字词频决定页面相关性的做法是极不合理的,还需要结
合关键字密度、关键字分布及关键字的权重标签等多方面来制约。
关键字密度
为了有效防止网站所有者恶意操控搜索结果,搜索引擎根据关键字
词频与网页总词汇量的比例(即关键字密度值)来衡量页面中某关
键字的词频是否合理。
假设页面中某关键字的密度为50%时,这个页面的关键字密度值为20。例如,在内容是camcorder battery的页面中,camcorder的关键
字密度是50%,则针对关键字camcorder,这个页面的关键字密度值
为20。
关键字分布
关键字分布,即关键字在页面中出现的位置。关键字在页面中不同
的位置上出现会对页面的相关性带来一定的影响。搜索引擎通过记
录关键字在页面中出现的位置来计算页面的关键字分布值,从而得
到关键字分布与页面相关性之间的关系。
假设关键字在页面的顶部出现时,关键字分布值为50;而在底部出
现时,关键字分布值为10;则关键字K1同时出现在页面A的顶部与
底部时,该页面的关键字分布值就是60。
标签影响
在网页中,网页制作者利用不同的HTML标签使页面中相关的内容
实现不同的视觉效果(例如字体的样式、字号、颜色等),灵活地
运用各种HTML标签还有助于提高页面相关性。
我们在阅读文章的时候,经常会遇到文章中某些内容的表现形式与
周围的内容是存在明显区别的,例如,某些内容的字体颜色与周围
的内容会形成强烈的反差,或者字号大小不一致等。
这就说明了文章的作者是刻意要突出这部分内容,这部分内容比较
重要。同样,在对网站进行优化的时候,我们也可以使用同样的方
法来突出页面中重要的内容,例如,利用不同的HTML标签去标注
页面中需要突出的内容。这样,搜索引擎在分析页面的时候就会根
据HTML标签识别页面中内容的样式,从而判断页面中哪些内容更
加重要。
在页面权重分配里,按照标签的作用,可以把HTML标签分为权重
标签与非权重标签两大类。权重标签是指会影响页面权重的标签,常见的权重标签包括、等;而非权重标签常见的
作者:吴泽欣
ISBN:978-7-115-35701-4
本书由北京图灵文化发展有限公司发行数字版。版权所有,侵权必
究。
您购买的图灵电子书仅供您个人使用,未经授权,不得以任何方式复制
和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐
号等维权措施,并可能追究法律责任。
图灵社区会员 ( ?
ω ?)y(2228681634@qq.com) 专享 尊重版权前言
本书结构
第 1 章 初探SEO
第 2 章 搜索引擎工作原理
第 3 章 关键字
第 4 章 URL优化
第 5 章 代码优化
第 6 章 图片优化
第 7 章 网页结构
第 8 章 网站结构
第 9 章 链接策略
第 10 章 服务器的选择
第 11 章 搜索引擎优化作弊
第 12 章 搜索引擎优化工具
第 13 章和第 14 章 案例分析
第3版修订说明
读者对象
第 1 章 初探SEO
1.1 网络营销
1.2 搜索引擎营销
1.3 关键字广告
1.4 竞价排名
1.5 搜索引擎联盟广告
1.6 SEO简介
1.6.1 SEO基本概念
1.6.2 SEO与搜索引擎广告的区别
1.6.3 SEO发展历史
1.6.4 SEO优缺点1.6.5 SEO应用领域
1.6.6 SEO主要工作
1.6.7 SEO宗旨
1.6.8 SEO职业道德
第 2 章 搜索引擎工作原理
2.1 搜索引擎发展历史
2.2 搜索引擎分类
2.2.1 全文搜索引擎
2.2.2 目录搜索引擎
2.2.3 元搜索引擎
2.3 搜索引擎工作原理
2.3.1 搜索引擎抓取策略
2.3.2 页面分析
2.3.3 页面排序
2.3.4 关键字查询
2.4 搜索引擎特色算法
2.4.1 TrustRank算法
2.4.2 BadRank算法
2.4.3 百度绿萝算法
2.5 搜索引擎介绍
2.5.1 Google
2.5.2 百度
2.5.3 搜狗
2.5.4 360搜索
第 3 章 关键字
3.1 关键字简介
3.2 关键字词频
3.3 关键字密度3.3.1 英文关键字密度
3.3.2 中文关键字密度
3.3.3 关键字密度范围
3.3.4 关键字密度与页面相关性
3.4 关键字词频与密度的关系
3.5 主关键字
3.6 辅关键字
3.6.1 辅关键字简介
3.6.2 辅关键字作用
3.7 关键字分布及表现形式
3.7.1 关键字分布
3.7.2 关键字表现形式
3.7.3 关键字描述
3.8 关键字策略
3.8.1 关键字寻找
3.8.2 用户搜索习惯分析
3.8.3 关键字评估
3.8.4 关键字选择策略
第 4 章 URL优化
4.1 URL优化简介
4.2 URL简介
4.3 URL命名技巧
4.3.1 汉字命名形式
4.3.2 英文命名形式
4.3.3 拼音命名形式
4.4 分隔符的使用
4.4.1 常见分隔符
4.4.2 空格与横杠4.4.3 下划线“_”
4.4.4 反斜杠“”
4.5 URL长度
4.5.1 域名长度6
4.5.2 路径长度
4.5.3 文件名长度
4.5.4 URL长度
4.5.5 URL长度的影响
4.6 关键字词频
4.7 关键字结合
4.8 URL各组成部分优化
4.8.1 域名
4.8.2 子域名
4.8.3 路径
4.8.4 文件名
4.9 URL重定向
4.9.1 301重定向
4.9.2 302重定向
4.9.3 URL转发
4.10 URL静态化
4.10.1 URL重写
4.10.2 生成静态页面
第 5 章 代码优化
5.1 代码优化简介
5.2 精简代码
5.2.1 清理垃圾代码
5.2.2 HTML标签转换
5.2.3 CSS优化5.2.4 JavaScript优化
5.2.5 表格优化
5.3 页面头部优化
5.3.1 摘要信息
5.3.2
5.3.3
5.3.4
5.3.5 其他标签
5.4 权重标签使用
5.4.1
5.4.2 标签
5.4.3 标签
5.4.4 标签
5.4.5 标签
第 6 章 图片优化
6.1 图片描述
6.1.1 图片名称
6.1.2 alt属性
6.1.3 周边内容
6.2 图片压缩
6.2.1 图片压缩原理
6.2.2 图片格式问题
6.2.3 图片缩小
6.3 图片压缩工具
6.3.1 Image Optimizer
6.3.2 Photoshop
第 7 章 网页结构
7.1 网页结构7.2 网页组成元素
7.2.1 导航栏
7.2.2 栏目
7.2.3 正文内容
7.3 页面重要区域分布规律
7.3.1 页面布局
7.3.2 HTML源代码
7.4 网页结构类型
7.4.1 导航型
7.4.2 内容型
7.4.3 内容导航结合型
7.5 常用页面技术
7.5.1 隐藏层
7.5.2 Flash元素
7.5.3 框架
第 8 章 网站结构
8.1 网站结构
8.2 搜索引擎对重要页面的抓取
8.3 逻辑结构
8.3.1 链接深度
8.3.2 URL与链接深度的关系
8.3.3 逻辑结构类型
8.4 物理结构
8.4.1 目录深度
8.4.2 URL与目录深度的关系
8.4.3 物理结构类型
8.5 网站结构优化
8.5.1 逻辑结构优化8.5.2 物理结构优化
8.5.3 理想结构
8.5.4 合理结构
8.6 网站结构规划实例
8.6.1 逻辑结构
8.6.2 物理结构
第 9 章 链接策略
9.1 链接
9.1.1 链接对象
9.1.2 导入与导出链接
9.1.3 内部链接
9.1.4 外部链接
9.2 链接的意义
9.2.1 链接与页面相关性
9.2.2 链接与页面权重继承
9.3 内部链接
9.3.1 内部投票机制
9.3.2 内部链接数量
9.3.3 内部链接意义
9.4 外部链接
9.4.1 外部投票机制
9.4.2 链接主题相关性
9.4.3 外部链接数量
9.4.4 外部链接质量
9.4.5 外部链接意义
9.5 增加外部链接的方法
9.5.1 分类目录
9.5.2 交换链接9.5.3 购买链接
9.5.4 链接诱饵
第 10 章 服务器的选择
10.1 服务器所在的国家(地区)
10.2 服务器的性能
10.2.1 带宽
10.2.2 服务器资源
10.2.3 连接数
10.2.4 月流量
10.2.5 访问速度
10.2.6 附加服务
10.3 服务器功能
10.3.1 是否支持URL重写
10.3.2 数据备份
10.3.3 404页面设置
10.3.4 子域名数量
10.4 虚拟空间弊端
第 11 章 搜索引擎优化作弊
11.1 搜索引擎优化作弊简介
11.2 常见的内容作弊方式
11.2.1 关键字堆砌
11.2.2 隐藏文本
11.2.3 空页面
11.2.4 内容农场
11.2.5 标签滥用
11.2.6 不相关搜索结果页
11.3 镜像网站
11.4 门页11.5 伪装
11.6 302重定向
11.6.1 meta重定向
11.6.2 JavaScript重定向
11.7 链接作弊
11.7.1 垃圾链接
11.7.2 外部链接作弊方式
11.7.3 如何识别链接作弊网站
11.8 作弊处罚
11.8.1 降低权重
11.8.2 列入黑名单
11.8.3 被惩罚后处理办法
11.9 举报作弊网站的方法
11.9.1 Google
11.9.2 百度
第 12 章 搜索引擎优化工具
12.1 关键字查询工具
12.2 Google管理员工具
12.2.1 网站信息中心
12.2.2 网站信息
12.2.3 搜索外观
12.2.4 搜索流量
12.2.5 Google索引
12.2.6 抓取
12.3 百度管理员工具
12.3.1 站点管理
12.3.2 数据提交
12.3.3 网站配置12.3.4 网站分析
12.4 追词
12.4.1 相关关键字
12.4.2 网站监控
12.4.3 排名监控
12.5 去查网
12.5.1 综合查询
12.5.2 百度权重查询
12.6 Sitemap生成器
12.6.1 工具栏
12.6.2 菜单栏
12.7 SEO Administrator
12.7.1 链接广泛度检测器
12.7.2 交换链接工具
12.7.3 网站分析器
12.7.4 排名监控器
第 13 章 案例分析1
13.1 网站优化前的准备
13.2 第一阶段:网站基本信息
13.3 第二阶段:去除弊端
13.3.1 Iframe清理
13.3.2 隐藏层
13.4 第三阶段:网站结构
13.4.1 调整前结构
13.4.2 调整后结构
13.5 第四阶段:关键字策略
13.5.1 熟悉网站所在行业
13.5.2 关键字寻找13.5.3 关键字评估
13.6 第五阶段:页面优化
13.6.1 头部优化
13.6.2 关键字布局
13.6.3 代码优化
13.7 第六阶段:页面索引
13.7.1 提交网站地图文件
13.7.2 网站地图页面
13.7.3 重点推荐频道
13.8 第七阶段:外部链接关系建立
13.8.1 交换友情链接
13.8.2 登录分类目录
13.9 第八阶段:网站维护
13.9.1 页面调整
13.9.2 网站监控
13.9.3 关键字维护
13.9.4 链接维护
第 14 章 案例分析2
14.1 网站基本信息
14.2 关键字寻找与筛选
14.2.1 关键字寻找
14.2.2 关键字筛选
14.3 网站结构构建
14.3.1 逻辑结构
14.3.2 物理结构
14.4 网页结构构建
14.5 关键字分布及表现
14.6 URL优化14.7 头部优化
14.8 代码优化
14.8.1 垃圾代码清理
14.8.2 HTML标签转换
14.8.3 权重标签使用
14.8.4 图片描述
14.9 链接策略
附录A 常用术语
SEOer
PR值
原理
SogouRank
页面收录数
页面包含数
链接广泛度
蜘蛛程序
robot.txt
垃圾链接制造厂
停用词
附录B 常见问题
作者自述:我的SEO之路
择业
入门
机遇
个人站长
新生
选择
《SEO教程》的诞生结语前言
随着互联网信息的爆炸性增长,搜索引擎作为信息查询工具得到越来越
广泛的应用,其商业价值也随之被发掘,从而产生了竞价排名、关键字
广告及搜索引擎优化等网络营销方式。其中,搜索引擎优化作为主要的
搜索引擎营销方式,因其具有低成本、高回报等优势而得到广泛的应
用。
在国内,搜索引擎优化行业正逐渐进入正规发展的新时期。为了帮助初
学者及具有一定经验的读者更系统、更深入地学习搜索引擎优化技术,我将通过本书与广大读者分享从业11年来的经验,深入剖析搜索引擎优
化的各个细节,包括关键字策略、URL优化、代码优化、图片优化、网
页结构、网站结构、链接策略、搜索引擎优化误区及服务器的选择等。
随着时间的推移,搜索引擎的算法也会不断地完善。因此,在实际操作
中我们还可能会遇到各种各样的新问题,这就要求我们要时刻关注搜索
引擎的动态,总结实践经验,这样才能实现自我提升,在激烈的竞争中
脱颖而出!本书结构
本书章节的顺序是根据网站优化实施的流程及步骤制定的,主要围绕搜
索引擎优化的核心基础环节而展开。为了帮助读者更好地理解其中的含
义,书中还引用了大量的图文例证。
本书共分为14章。第1章主要介绍SEO的概况;第2章介绍搜索引擎发展
的历史、分类及工作原理等;第3~10章详细介绍了搜索引擎优化的每
个基础环节及操作技巧;第11章介绍常见的搜索引擎优化作弊方式;第
12章介绍几个常用的搜索引擎优化工具及使用方法;第13章和第14章,则以两个网站的优化作为案例,向读者介绍已有网站的优化流程及细
节。
第 1 章 初探SEO
这一章详细介绍了竞价排名、关键字广告、搜索引擎联盟广告及搜索引
擎优化这几种目前最主要的搜索引擎营销方式,读者还可从中了解到
SEO的发展历史、现状、前景、重要性及主要的工作内容等。
第 2 章 搜索引擎工作原理
这一章主要介绍搜索引擎的工作原理,从搜索引擎对页面的收录、索
引、分析、排序到向用户提供查询服务等多方面进行了详细的说明,这
些是学习搜索引擎优化的基础。
页面抓取:主要介绍搜索引擎抓取页面的流程及方式,以及搜索引
擎对已抓取页面的存储及维护方法。
页面分析:介绍了搜索引擎对网页分析的流程及原理,包括对网页
正文信息的提取、切词及建立关键字正反向索引等。
页面排序:介绍了决定页面排序的三大主要因素,即页面相关性、链接权重及用户行为。
查询功能:从用户在搜索引擎中发起查询请求开始,到返回相关结
果的流程及原理。第 3 章 关键字
这一章介绍了与关键字相关的一系列内容,包括关键字词频、关键字密
度、辅关键字、关键字在页面中的分布和表现,以及关键字的寻找、评
估和筛选等。
本章首先从关键字的词频出发,结合关键字密度说明关键字词频的合理
范围;然后,引进辅关键字概念,进一步说明如何利用辅关键字合理增
加主关键字的词频,从而提高页面相关性;再介绍关键字在页面中分布
的规则;最后,就是关键字的寻找、评估及筛选方法。
第 4 章 URL优化
这一章是关于URL优化,主要介绍URL各组成部分的命名及组合技巧,包括域名的选择、目录及文件的命名,以及目录名称间、目录名称与文
件名称间的组合技巧。而为了实现所谓的动态页面静态化,还介绍了在
Apache、IIS等环境下如何进行URL重写。
第 5 章 代码优化
这一章介绍了代码优化的各个细节,包括精简代码、头部优化(即页面
的标题、描述及关键字标签的优化)、CSS优化、JavaScript优化、表格
优化、权重标签的使用等。
第 6 章 图片优化
这一章主要介绍图片优化,包括图片优化的方式、图片压缩的原理,以
及两个主要的图片压缩工具Image optimizer和Photoshop。
第 7 章 网页结构
这一章介绍的是网页结构构建的方法及技巧。首先从HTML源代码及页
面布局的角度出发,说明页面重要位置的分布规律;然后,介绍几种常
见的网页结构类型及构建方法;最后介绍几种常见页面的优化方法,例
如Flash、隐藏层、框架等。
第 8 章 网站结构这一章从网站的物理结构及逻辑结构出发,向读者介绍网站结构的构建
及优化技巧。
第 9 章 链接策略
这一章从内部链接及外部链接的角度出发,对链接关系进行了详细的说
明。此外,还介绍了几种可以有效增加高质量外部链接的方法。
第 10 章 服务器的选择
这一章主要介绍从搜索引擎优化的角度怎样选择服务器。
第 11 章 搜索引擎优化作弊
这一章介绍了几种常见的搜索引擎优化作弊方式,包括内容作弊、镜像
网站、门页、伪装、302重定向及链接作弊等。此外,还介绍了网站因
违规而遭到惩罚后的处理方法,以及如何举报那些正在使用违规手段操
纵排名的网站。
第 12 章 搜索引擎优化工具
这一章介绍了常用的搜索引擎优化工具,包括关键字查询工具(如百度
关键字工具)、Google 管理员工具、百度管理员工具、追词、去查网、Sitemaps生成器及SEO Administrator部分特色功能,覆盖了从关键字寻
找、网站监控、链接寻找及维护到排名监控的全过程。
第 13 章和第 14 章 案例分析
这两章以作者优化过的网站作为案例,向读者介绍网站优化的全过程及
细节。首先,了解网站的基本情况;然后,为网站制定符合实际的关键
字策略,并根据制定的关键字策略对网站中的页面进行优化(如头部、主体内容、HTML源代码等);接着想方设法提高网站的的页面收录
数,以及增加外部链接;最后,对网站进行日常维护,进一步提高网站
的用户体验及搜索引擎友好性。第3版修订说明
本书第1版自2008年12月出版以来,销量理想,成为同类图书中销量最
多的作品之一。为了纠正第1、2版中的一些细节错误,以及应对搜索引
擎技术的更新和发展,本书对SEO相关内容进行了补充及完善,编写了
第3版,新增或者修改内容如下:
修正第2版里的细节错误;
搜索引擎特色算法介绍;
搜索引擎抓取策略补充及完善;
网页更新策略说明的完善;
搜索引擎优化作弊新方式的介绍;
增加百度站长工具、去查、追词等工具的使用说明;
更新Google管理员工具使用说明。读者对象
阅读本书的读者并不需要具备程序开发的知识,但需具备网页制作的能
力,对HTML语言有一定的了解。
对于搜索引擎优化初学者,可以通过本书了解搜索引擎优化的各个
基础环节、实施流程及操作技巧。同时,纠正目前正在或者已经犯
下的错误,以及避免将要犯下的不必要的错误。
对于具备一定搜索引擎优化经验的读者,可以把本书的理论与自己
的实践经验相结合,在技术方面实现进一步的突破。
对于企业营销部门的管理人员,本书可以帮助他们更好地开展搜索
引擎营销工作。
对于网站管理者来说,本书可以帮助他们更好地规划网站,进一步
提高网站的用户体验及搜索引擎友好性。这些人包括网站设计制作
者、网站站长、网站运营策划者、网站开发者等。
本书还可以作为各大中院校电子商务或计算机应用等专业的教材,让学生可以掌握一门实用的技能,提高竞争力。第 1 章 初探SEO
进入信息时代,互联网从根本意义上颠覆了传统行业。传统行业从
研发、生产到销售,无一不与互联网发生着紧密的联系。特别是在
产品销售方面,更是发生了翻天覆地的变化。过去只能摆在货架上
销售的产品,如今被搬到互联网上,通过线上、线下相结合来提高
产品的销量。与线下销售相比,线上销售具有成本更低、销量更
大、不受时间及地域限制等优势。
互联网凭借低成本、高回报的优势以迅雷不及掩耳之势摧毁了一家
又一家商店、超市,或者把一家又一家的商店、超市收入麾下。如
果你仍固步自封,不思进取的话,那么你的产品或企业将会被淹没
在互联网的大潮里!在互联网高速发展的今天,我们要么顺应历史
的潮流获得进一步发展的机会;要么被淘汰,别无选择!
本章内容
网络营销
搜索引擎营销
关键字广告
竞价排名
搜索引擎联盟广告
SEO简介1.1 网络营销
随着互联网的日益普及,为了通过互联网推广自身的产品或者服务,越
来越多的企业建立了网站。然而,建立网站并不意味着企业就能通过互
联网向潜在客户推广自身的产品或服务。
网站只是企业展示产品、介绍服务的重要平台之一,相当于一家商店,而网站里的页面就是商店里存放商品的货架。要想让顾客购买你的产
品,首先也是最重要的就是要吸引顾客走进这个商店,即访问你的网
站,这就涉及网络营销的问题。
网络营销是一种通过互联网推广产品或服务的营销方式,最常见的网络
营销方式包括:富媒体广告营销、搜索引擎营销、E-mail营销、效果广
告、社会化媒体营销(如论坛营销、SNS)等。其中,搜索引擎营销作
为一种精准的网络营销方式,由于具有投入低、回报高的优势而得到广
泛的应用。接下来,先向大家简单介绍一下搜索引擎营销及其优缺点。1.2 搜索引擎营销
随着互联网信息的爆炸性增长,搜索引擎作为信息查询工具得到越来越
广泛的应用。使用搜索引擎寻找信息已经成为人们获取信息最主要、也
是最快捷的途径。
由于用户总能在搜索引擎中找到他们所关心的信息,从而对搜索引擎产
生了强烈的信任感,搜索引擎巨大的营销价值就蕴藏在用户对搜索结果
信任的基础之上。如果商家的网站能在相关搜索结果中出现,那么就可
以向目标客户展示他们的产品(或服务)。因为,通过搜索结果访问网
站的用户极有可能就是其产品(或服务)的潜在客户。
由此可知,从搜索引擎引导过来的用户对于网站是极其重要的。然而,怎样才能从搜索引擎上引导更多的用户呢?这就是接下来将要介绍的搜
索引擎营销方面的内容。
通过搜索引擎平台向潜在客户推销产品或者服务的行为,我们称之为搜
索引擎营销,即SEM(Search Engine Marketing)。搜索引擎营销作为
重要的网络营销方式之一,有着不可替代的优势。首先,搜索引擎覆盖
范围广,是网民使用最频繁的互联网服务之一;其次,针对性强,信息
的接收者就极可能是潜在客户。
例如,某个用户在搜索引擎中搜索“网站优化”,则该用户可能是在寻找
与网站优化相关的资料或者提供网站优化服务的公司。如果提供网站优
化服务的公司能出现在这个搜索结果中,那么就可以向目标客户推广他
们的服务了。
由于在搜索引擎中,企业的产品(或服务)只能对寻找特定信息的用户
进行展示,从而会错失游离在选择与非选择之间的客户。因此,搜索引
擎营销并不适合品牌或产品的大型推广。
目前,最常见的搜索引擎营销方式包括关键字广告、搜索引擎联盟广告
(百度联盟广告)及搜索引擎优化。前两种方式以搜索引擎为后盾,占
据天时、地利;但搜索引擎优化具有低投入、高产出的独特优势,与它
们展开了激烈的竞争,并占据相当重要的地位。随着越来越多的企业加入搜索引擎广告投放阵地(传统关键字广告及联
盟广告),广告的点击价格也随之水涨船高,逐渐失去其投入低、产出
高的优势。尽管如此,搜索引擎广告仍然是商家目前首要的广告投放渠
道,这与其天生的优势是不可分割的。1.3 关键字广告
在搜索结果页面中,搜索引擎除了向用户提供与其查询内容相关的普通
信息外,还会在相应的位置上附加与查询内容相关的广告信息。然后,通过统计用户点击广告的次数来收取商家相应的广告费用。在搜索结果
页面的广告中,广告质量越高(客户支付的每点击费用越高,广告点击
率越大,广告着陆页与关键字相关性越强),排名就越靠前,也就能向
越多的潜在用户推销其产品(或服务)。这种购买关键字搜索结果页面
中的广告排名位置的方式,我们称之为关键字广告。
在不同的搜索引擎中,广告展示的位置及方式会有所区别。例如,Google的广告位于搜索结果页面的右侧(如图1-1所示),而百度、搜
狗则位于自然搜索结果上方及右侧(如图1-2和图1-3所示),最多时会
展示10个相关的关键字广告。
图 1-1 Google广告展示位置图 1-2 百度广告展示位置
图 1-3 搜狗广告展示位置1.4 竞价排名
竞价排名就是指以竞价的方式拍卖搜索结果排名的行为。不管网站内容
的真实、优劣与否,只要付出足够多的费用,你就可以在任意关键字上
取得任意想要的排名。竞价排名是百度以前独有的盈利模式,由于严重
影响用户体验,百度目前已经放弃了这种竞价排名的广告方式,转而采
取关键字广告的方式。
例如,在“数码相机”的搜索结果中,名列前5位的网站都是通过竞价的
方式而得以展示的,这样在搜索结果的第一页就只剩下5个自然排名结
果,如图1-4所示。图 1-4 百度数码相机搜索结果
关键字广告以搜索引擎为后盾,占据了天时、地利。以关键字广告方式
开展搜索引擎营销,费用低,见效快。付款后即可在搜索引擎提供的广
告平台上进行关键字广告投放,只要广告内容不违反搜索引擎制定的相
关条款,客户又付出足够多的费用,就可以在广告区域上取得较好的排
名。
在享受关键字广告给我们带来好处的同时,我们却不能避免其负面影
响。
以关键字广告的方式开展搜索引擎营销,时效是有限的,仅存在于
付费推广期间。
随着参与同一关键字广告投放的网站增多,每一点击所产生的费用
也会变得越来越高。例如,在Google页面中,有的关键字每一点击
甚至需要几十美元。
不能避免无效点击。无效点击在业内已经是公开的秘密。目前除了
Google能有限地进行监控以外,其他的搜索引擎都束手无策,个别
搜索引擎甚至人为操纵点击数据,牟取不义之财。既然,无效点击
是不能避免的,那么我们就需要为其付出高昂的代价。产生无效点
击的主要原因包括以下两个。
来自竞争对手的恶意点击。对于监控无效点击行为较差的搜索
引擎来说,竞争对手的恶意点击所产生的费用是相当惊人的。
广告与自然搜索结果混淆而导致的无效点击。每个搜索引擎都
会把竞价排名与自然结果 进行区分,但不同的搜索引擎区分
的形式存在着明显的差别。例如,在Google中就明显标明是赞
助商链接,而在百度中则能以假乱真。
自然搜索结果即按搜索引擎算法自动产生的排序结果。
1
11.5 搜索引擎联盟广告
搜索引擎联盟广告与普通的网站联盟广告类似,合作网站在自身网站上
放置广告代码后即可向网站访问者显示广告主的广告内容,然后通过统
计用户的点击(即CPC)、销售(即CPS)、特定行为(即CPA)等方
式与广告平台进行费用分成。搜索引擎联盟广告与普通联盟广告最大的
区别在于搜索引擎联盟广告基于用户的历史搜索、访问行为而在联盟网
站上向特定的用户展示其关注的广告内容(即人群定向,如图1-5所
示),精准性是其他联盟广告所不具备的,主要形式有以下几种。
关键字定位:根据用户的关键字搜索记录向他展示相应的广告内
容。例如,我们在投放百度联盟广告时选择了关键字“数码相机”,如果某个搜索过“数码相机”的用户访问了百度联盟的网站,那么我
们的广告就会向该用户进行展示。
主题定位:通过对当前网页主题进行定位,展示与当前网页内容相
关的广告。
到访定向:针对访问过广告主网站(或网站中特定页面)的人群展
示相应的广告内容。图 1-5 百度联盟推广之人群定向1.6 SEO简介
通过关键字广告,很多企业都切身感受到了搜索引擎营销带来的好处,但是其高昂的费用及负面影响又让很多企业望而却步。因此,我们迫切
需要另外一种成本更低、回报更高的方式来开展搜索引擎营销,这就是
搜索引擎优化(SEO)。但很多人对此了解不多,甚至是一无所知。
例如,我们在百度上搜索“点击成金”,结果排在第一名的是神州培训
网,而不是深圳市点击成金科技有限公司的官方网站。如果排在第一名
的是一个欺骗性网站,那么就会给这个公司的品牌及形象带来极大的负
面影响,如图1-6所示。
图 1-6 关键字“点击成金”的搜索结果
尽管有的企业已经着手进行网站优化,却知之甚少,闹出了不少笑话。
例如,BMW德国网站的无知,金山软件的“憨厚” ,均让人哭笑不得。
BMW德国网站由于采用隐藏关键字而遭到Google惩罚,金山软件也曾采用过门页的作弊手
2
2段。
至此,相信读者对搜索引擎优化的重要性已经有所了解。接下来,将进
一步介绍与搜索引擎优化相关的内容。
1.6.1 SEO基本概念
SEO是Search Engine Optimization的缩写,中文为搜索引擎优化。根据
操作的意图,SEO又被称为“网站优化”或者“搜索引擎最优化”。但这两
个概念之间存在着本质的区别。
网站优化是指在对网站进行调整时,以提高网站的用户体验、完善
网站功能为根本出发点,最终提高网站的搜索引擎友好性。
搜索引擎最优化则恰恰相反,以提高网站的搜索引擎友好性为根本
出发点,关键时刻甚至置网站的用户体验及网站功能于不顾。
仅靠上面简单的介绍,可能部分读者对搜索引擎优化的工作性质还不太
了解。下面以图书管理为例,介绍一下搜索引擎优化的主要作用及意
义。
假设互联网是一个巨大的图书馆,那么搜索引擎就是图书管理员,而用
户则是阅览者,一个网站就相当于一本书,搜索引擎优化者就相当于图
书的责任编辑,他们在图书出版之前就对图书的内容进行完善,提高图
书的可读性。一本图书只有当图书管理员或读者认为它有价值的时候,才会被图书馆收藏并放到相应书架的最佳位置。同样,如果一个网站要
想被搜索引擎收录,那么它本身必须具备一定的价值或者得到一部分用
户的肯定。
图书管理员对图书的管理行为取决于他的管理水平。首先,图书管理员
会根据图书的名称等信息确定图书的类别;然后,再根据图书的简介、目录、内容等判断图书的内在价值;最后,综合出版社、作者知名度等
因素决定图书摆放的位置。由于阅览者对书架上每个位置的关注度是不
一样的,管理员会把他认为最重要的图书放到书架中最明显的位置。这
样,这本图书得到阅览的机会就会大大增加。
其实图书的名称就相当于网站的名称,前言或简介就相当于首页的描
述,而出版社或者作者知名度就相当于外部网站对我们网站的认可程度。如果一个网站主题明确、内容丰富、结构合理清晰,并得到大量外
部权威网站的认可,那么它就可以得到更多向用户展示的机会。
图书的主题、目录及内容是由作者制定的,经过与责任编缉协商、修改
后完成。经过修改后的图书主题更鲜明、目录更清晰、可阅读性更高。
搜索引擎优化者也一样,对网站进行综合调整以后,使得网站对于用户
及搜索引擎都更加友好,从而提高网站在搜索引擎中的表现。
1.6.2 SEO与搜索引擎广告的区别
SEO与搜索引擎关键字广告有着本质的区别,搜索引擎优化是通过对网
站进行必要的调整,提高网站的搜索引擎友好性,从而提高网站在某些
关键字搜索结果中的排名。要了解SEO技术,我们首先要从了解SEO的
历史开始。
1.6.3 SEO发展历史
互联网出现的初期,人们要在茫茫的互联网中找到所需的信息就如同大
海捞针,直到搜索引擎的出现,这种情况才有所改观。例如,曾经风靡
一时的目录式搜索引擎雅虎,它通过人工的方式收集网站信息,再对收
集回来的网站进行分类。这样,用户在寻找信息的时候,只要浏览相应
的目录或者使用雅虎的目录搜索功能即可,既快捷又准确。
随着使用者的不断增加,雅虎为分类目录下的网站带去的用户越来越
多。网站主显然也意识到了这一点,而且,他们还发现在分类页面中排
名越靠前的网站得到用户访问的几率就越高。于是,开始对雅虎分类目
录页面的排名规则进行研究,并通过相应的调整提高网站在分类页面上
的排名,这就是初期的SEO。
由于分类目录的排序规则十分简单,对于网站主来说并没有太大的考
验。因此,真正意义上的SEO技术出现在全文搜索引擎被广泛应用以
后。大概在20世纪90年代后期,以Google为代表的全文搜索引擎日渐强
大,用户数量也逐渐赶超雅虎这样的分类目录。因此,网站主也把战斗
阵地从分类目录转移至全文搜索引擎中。然而,全文搜索引擎算法十分
复杂,于是这些网站主就聚集起来讨论和研究。这样,SEO技术就在探
索中诞生了。
由于经济、文化等各方面的差异,搜索引擎优化技术在国内出现的时间要比国外晚得多,发展也相对缓慢。
大约在2003年左右,国内出现了第一批搜索引擎优化爱好者,他们聚集
在少数几个论坛上发表各自的见解,分享搜索引擎优化的经验,但以搜
索引擎优化作为职业的人还是屈指可数。
2004年至2005年中,搜索引擎优化技术得到广泛的传播。在这段时间
里,不少个人或者公司开始尝试商业化运作,整个行业呈现出一片“繁
荣”的景象。但是,由于大部分从员人业的贪婪及无知,整个行业陷入
了一片混乱,搜索引擎优化也成为了作弊的代名词。
从2005年下半年开始,由于搜索引擎算法的改进(例如,Google的佛罗
里达及阿斯汀更新),搜索引擎优化行业随即掀起一次空前的大洗礼,滥竽充数者在这场竞争中被无情地淘汰,整个行业得到了一定的净化。
但经历近两年的摧残,整个行业已经伤痕累累!
2005年下半年至2006年相对平静,整个行业在一定程度上得到了休养生
息,从而渐渐恢复该有的生机,搜索引擎优化也渐渐地得到了更多人的
认可。
2007年至2008年,“黑帽SEO”手法层出不穷,整个行业随即又陷入了一
片混乱,但由于搜索引擎算法已经相当完善,尽管受到“黑帽SEO”的困
扰,但没有出现像2005年那样的惨况。
自2009年开始,搜索引擎优化行业开始慢慢地朝着正规化、规模化的方
向发展,涌现出不少实力强大的服务提供商,更多的人开始正确地认识
和对待SEO。
2013年,随着搜索引擎技术的不断改进与完善,过去所谓的优化方法或
手段已不大奏效,甚至被列为违规。因此,SEO逐渐回归本质,即以提
高网站的用户体验为基础,最终达到提高网站搜索引擎友好性的目的。
1.6.4 SEO优缺点
SEO能在与关键字广告的竞争中脱颖而出,受到广大客户的追捧,必定
有其魅力所在。作为主要的搜索引擎营销方式,SEO除了具备搜索引擎
营销的优点外,还有以下独特的优势。成本较低。从某个角度上看,SEO是一种“免费”的搜索引擎营销方
式。对于个人网站来说,只要站长掌握一定的搜索引擎优化技术即
可。而对于企业来说,成本主要来自从事搜索引优化员工的薪酬或
雇用专业搜索引擎优化公司所花的费用。
持久性。一般情况下,采用正规方法进行优化的网站,排名效果会
比较稳定。除非搜索引擎算法发生重大改变或者强大的竞争对手后
来居上,否则不会有太大的变化。
不需要承担无效点击的风险。不管点击网站的是潜在客户还是竞
争对手,我们都无需为此而付出任何代价。
尽管搜索引擎优化具备这么多的优势,但它毕竟是依附搜索引擎生存
的,因此也会存在一些不可克服的缺点,主要表现在以下几个方面。
施工时间长。从开始对网站进行优化到实现关键字的目标排名,一
般需要2~6个月。对于竞争十分激烈的关键字,还可能需要一年甚
至更长的时间(网站优化时间的长短主要取决于所选择的关键字的
竞争激烈程度、优化者水平及搜索引擎等一些不确定的因素)。
不确定性。搜索引擎优化人员并不是搜索引擎的开发者,与搜索引
擎也没有什么密切关系,所以,并不能向任何人保证在指定时间
内,实现某一关键字的指定排名。
被动性。搜索引擎会不定期改进算法(甚至为了自身利益而对某些
网站或者行业进行人为干预,以迫使这些用户投放关键字广告),这就要求我们要对网站进行及时调整以迎合新算法,这样才能长久
享受搜索引擎带来的好处。
1.6.5 SEO应用领域
1. 企业网站
企业网站通过优化以后,可以大大增加了向目标客户展示产品或者服务
的机会,从而提高企业的影响力,提升品牌的知名度。例如,某个生产
手机的企业,如果用户在搜索“手机”的时候,该企业的网站能够出现在
前几位,那么就可以得到更多用户的点击,而这些用户可能是竞争对
手、潜在客户或者相关信息需求者。2. 电子商务型网站
电子商务型网站经过优化后可以通过搜索引擎向更多的潜在消费者推销
自身的产品,从而节省巨额的广告费用,提高产品销量。
3. 内容型网站
资讯内容型网站经过优化后,可以大大提高网站的流量,从而进一步蚕
食强者的市场,最终后来居上,成为行业的领先者。
1.6.6 SEO主要工作
SEO的主要工作分为内部优化及外部优化,如图1-7所示。从网站内部
出发,对网站的基本要素(例如,网站结构、页面结构、关键字分布
等)进行适当的调整;如果经过调整,网站在搜索引擎中的表现达到了
我们的预期效果,则内部优化工作就基本完成;否则,我们还需要反复
地对网站进行调整,直至达到预期效果为止。
图 1-7 网站优化流程
外部优化工作主要是围绕增强外部链接关系而展开的,这项工作必须贯彻优化的全过程,例如,交换友情链接、登录分类目录等。
1.6.7 SEO宗旨
SEO工作应该以用户为中心,围绕提高用户体验、完善网站功能而展
开,不能为了优化而优化。
你对网站调整是否只是为了优化而优化呢?反问一下自己:如果不是为
了搜索引擎,我会这样做吗?这样做能给用户带来什么好处吗?这样做
会影响用户体验吗?
1.6.8 SEO职业道德
从事搜索引擎优化的人员是否具备良好的职业道德是决定网站优化成败
的关键因素之一。在对网站进行优化的时候,应该以满足用户需求为根
本出发点,不做任何欺骗搜索引擎的行为,这样才有机会长期享受搜索
引擎带来的好处。第 2 章 搜索引擎工作原理
本章主要介绍搜索引擎的工作流程及原理,覆盖了从搜索引擎对页
面的收录、索引、分析、排序到关键字查询的全过程。此外,还讲
述了搜索引擎各主要工作与搜索引擎优化之间的对应关系,为学习
搜索引擎优化提供了理论根据。
本章内容
搜索引擎发展历史
搜索引擎分类
搜索引擎工作原理
搜索引擎特色算法
搜索引擎介绍2.1 搜索引擎发展历史
随着互联网信息的爆炸性增长,用户想要在互联网中寻找到所需信息就
如同大海捞针,这时,为满足大众信息检索需求的专业搜索引擎应运而
生。
现实意义上的搜索引擎是1990年由蒙特利尔大学学生Alan Emtage开发
的Archie。虽然当时World Wide Web还未出现,但网络中文件传输已经
相当频繁,而且由于大量的文件散布在各个不同的FTP服务器中,形成
了巨量的信息源。Alan的Archie依靠脚本程序搜索网络上的文件,再对
其进行索引,供使用者查询。由于Archie深受用户欢迎,受其启发,美
国内华达高教系统计算服务中心于1993年开发了另一个类似的搜索工
具,该搜索工具除了能索引文件外,还能检索网页。
当时,“机器人”一词十分流行,“机器人”是指快速不间断地执行某项任
务的程序。由于专门用于检索信息的机器人程序像蜘蛛一样在网络间爬
来爬去,因此,搜索引擎机器人程序也被称为蜘蛛程序。世界上第一个
监测互联网发展规模的机器人程序是Matthew Gray开发的World wide
Web Wanderer。刚开始它只用于统计互联网上服务器的数量,后来发展
成为能够检索网站域名。与Wanderer相对应,Martin Koster于1993年10
月创建了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用机器人程
序,而是靠网站主动提交信息来建立自己的链接索引,类似雅虎分类目
录。
随着互联网的快速发展,检索新出现的网页变得越来越困难,因此,在
Matthew Gray的Wanderer基础上,将传统的蜘蛛程序作了改进。其设想
是,既然所有网页都可能存在指向其他网站的链接,那么从跟踪一个网
站的链接开始,就有可能检索整个互联网。到1993年年底,一些基于此
原理的搜索引擎开始纷纷涌现,其中以JumpStation、The World Wide
Web Worm(Goto的前身,也就是今天Overture,已被雅虎收购),和
Repository-Based Software Engineering (RBSE) spider最负盛名。然而
JumpStation和WWW Worm只是以搜索工具在数据库中找到匹配信息的
先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个
在搜索结果排列中引入关键字串匹配程度概念的搜索引擎。现代意义上
的搜索引擎最早出现于1994年7月。当时,Michael Mauldin将John
Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。同年4月,斯坦福大学的两名博士生,David Filo和美籍华人杨
致远(Jerry Yang)共同创办了超级目录索引雅虎,并成功地使搜索引
擎的概念深入人心。从此搜索引擎进入了高速发展的时期。目前,互联
网上有名有姓的搜索引擎已达数百家,其检索的信息量也今非昔比。例
如,Google号称数据库中存放的网页已达40亿!2.2 搜索引擎分类
搜索引擎按照工作方式可以分为三类,分别是全文搜索引擎、目录索引
类搜索引擎及元搜索引擎。
2.2.1 全文搜索引擎
全文搜索引擎是名副其实的搜索引擎,国外具代表性的全文搜索引擎有
Google、雅虎,而国内比较著名的全文搜索引擎有百度等。它们都通过
从互联网上提取各网站的信息(以网页文字为主)建立数据库,再从这
个数据库中检索与用户查询条件相匹配的相关记录,最后把这些记录按
照一定的排列顺序返回给用户。
从搜索结果来源的角度,全文搜索引擎拥有自己的检索程序
(Indexer),俗称蜘蛛程序或机器人程序,并自行建立网页数据库,搜
索结果就直接从自身的数据库中调用。
2.2.2 目录搜索引擎
目录搜索引擎虽然具备搜索功能,但严格地说并不是搜索引擎,仅仅是
按照类别向用户展示相关网站列表的普通网站而已。目录搜索引擎中最
具代表性的要数雅虎了(雅虎通过一轮番的并购及研发,已经跻身顶尖
全文搜索引擎行列),其他还有ODP (即DMOZ)等。
2.2.3 元搜索引擎
元搜索引擎在接受用户查询请求的时候,会同时在其他多个搜索引擎上
进行搜索,并将结果返回给用户,著名的元搜索引擎有Dogpile、Vivisimo等。在搜索结果排列方面,有的直接按照来源排列搜索结果,例如Dogpile;有的则按照自定的规则将结果重新排列组合后再返回给
用户,例如Vivisimo。
除上述三大类搜索引擎以外,还有以下两种非主流形式的搜索引擎。
集合式搜索引擎。这一类搜索引擎与元搜索引擎类似,但区别在于
不是同时调用多个搜索引擎进行搜索,而只是让用户从提供的搜索引擎中进行选择,例如,HotBot在2002年年底推出的搜索引擎。
免费链接列表(Free For All Links,FFA)。也就是常见的链接交
换系统,这类网站一般只简单地排列出网站的链接条目,少部分还
会有简单的分类目录,不过规模比起雅虎这样的人工分类目录要小
得多。2.3 搜索引擎工作原理
搜索引擎优化的一个主要任务就是提高网站的搜索引擎友好性,因此,搜索引擎优化的每个环节都会与搜索引擎工作流程存在必然的联系,研
究搜索引擎优化实际上就是对搜索引擎工作过程进行逆向推理。因此,学习搜索引擎优化应该从了解搜索引擎的工作原理开始。
搜索引擎的主要工作包括:页面抓取、页面分析、页面排序及关键字查
询。
页面抓取:就是指搜索引擎通过蜘蛛程序在互联网上抓取页面并进
行存储的过程,为搜索引擎开展各项工作提供了数据支持。
页面分析:主要是指对抓取回来的网页进行信息提取处理,包括提
取页面的正文信息,并对正文信息进行分词等,为后续建立关键字
索引及关键字倒排索引提供基础数据。
页面排序:搜索引擎结合页面的内外部因素计算出页面与某个关键
字的相关程度,从而得到与该关键字相关的页面排序列表。
关键字查询:搜索引擎接收来自用户的查询请求,并对查询信息进
行切词及匹配,再向用户返回相应的页面排序列表。
本章接下来将向读者介绍搜索引擎各个主要工作的流程、原理及作用,以及在对网站进行优化时应该如何应对。
2.3.1 搜索引擎抓取策略
搜索引擎对网页的抓取实际上就是在互联网上进行数据采集 ,这是搜
索引擎最基础的工作。搜索引擎的数据采集能力直接决定了搜索引擎可
提供的信息量及对互联网覆盖的范围,从而影响搜索引擎查询结果的质
量。因此,搜索引擎总是想方设法地提高它的数据采集能力。
搜索引擎利用数据采集程序在互联网上抓取数据,我们称这个数据采集程序为蜘蛛程序或者
机器人程序。
本节首先会介绍搜索引擎抓取页面的流程及方式,再介绍搜索引擎对已
1
1抓取页面的存储及维护方式。
1. 页面抓取流程
在互联网中,URL是每个页面的入口地址,搜索引擎蜘蛛程序就是通过
URL抓取到页面的。搜索引擎蜘蛛程序从原始URL列表出发,通过URL
抓取并存储原始页面;同时,提取原始页面中的URL资源并加入到URL
列表中。如此不断地循环,就可以从互联网中获取到足够多的页面,如
图2-1所示。
图 2-1 搜索引擎抓取页面简单流程
URL是页面的入口,而域名则是一个网站的入口。搜索引擎蜘蛛程序通
过域名进入网站,从而展开对网站页面的抓取。换言之,搜索引擎要在
互联网上抓取到页面的首要任务就是建立一个足够大的原始域名列表,再通过域名进入相应的网站,从而抓取这个网站中的页面。
而对于网站来说,如果想要被搜索引擎收录,首要的条件就是加入搜索
引擎的域名列表。下面向大家介绍两种常用的加入搜索引擎域名列表的
方法。
第一,利用搜索引擎提供的网站登录入口,向搜索引擎提交网站的域
名。例如,Google的网站登录地址是http:www.google.comaddurl 。对
于提交的域名列表,搜索引擎只会定期进行更新。因此,这种做法比较
被动,从域名提交到网站被收录花费的时间也比较长。以下是主流中文
搜索引擎的网站提交入口。
在实际中,我们只需要提交网站的首页地址或者网站的域名,搜索引擎就会跟踪首页中的链
2
2接去抓取其他页面。
百度:http:www.baidu.comsearchurl_submit.htm。
360:http:info.so.360.cnsite_submit.html。
搜狗:http:www.sogou.comfeedbackurlfeedback.php。
Google:http:www.google.comaddurl(需要注册使开通站长工具
才能提交)。
第二,通过与外部网站建立链接关系,使搜索引擎可以通过外部网站发
现我们的网站,从而实现对网站的收录。这种做法主动权掌握在我们自
己的手里(只要我们拥有足够多高质量的链接即可),而且收录速度也
比向搜索引擎主动提交要快得多。视乎外部链接的数量、质量及相关
性,一般情况下,2~7天左右就会被搜索引擎收录。
2. 页面抓取
通过上面的介绍,相信读者已经掌握了加快网站被搜索引擎收录的方
法。然而,怎样才能提高网站中页面被收录的数量呢?这就要从了解搜
索引擎收录页面的工作原理开始。
如果把网站页面组成的集合看作是一个有向图,从指定的页面出发,沿
着页面中的链接,按照某种特定的策略对网站中的页面进行遍历。不停
地从URL列表中移出已经访问过的URL,并存储原始页面,同时提取原
始页面中的URL信息;再将URL分为域名及内部URL两大类,同时判断
URL是否被访问过,将未被访问过的URL加入URL列表中。递归地扫描
URL列表,直至耗尽所有URL资源为止。经过这些工作,搜索引擎就可
以建立庞大的域名列表、页面URL列表及存储足够多的原始页面。
3. 页面抓取方式
通过以上内容,大家已经了解了搜索引擎抓取页面的流程及原理。然
而,在互联网数以亿计的页面中,搜索引擎怎样才能从中抓取到更多相
对重要的页面呢?这就涉及搜索引擎的页面抓取方式问题。
页面抓取方式是指搜索引擎抓取页面时所使用的策略,目的是为了能在
互联网中筛选出更多相对重要的信息。页面抓取方式的制定取决于搜索引擎对网站结构的理解。如果使用相同的抓取策略,搜索引擎在同样的
时间内可以在某一网站中抓取到更多的页面资源,则会在该网站上停留
更长的时间,抓取的页面数自然也就更多。因此,加深对搜索引擎页面
抓取方式的认识,有利于为网站建立友好的结构,增加页面被抓取的数
量。
常见的搜索引擎抓取页面的方式主要有广度优先、深度优先、大站优
先、高权重优先、暗网抓取及用户提交等,接下来将详细介绍这几种页
面抓取方式及其优缺点。
广度优先
如果把整个网站看作是一棵树,首页就是根,每个页面就是叶子。
广度优先是一种横向的页面抓取方式,先从树的较浅层开始抓取页
面,直至抓取完同一层次上的所有页面后才进入下一层。因此,在
对网站进行优化的时候,我们应该把网站中相对重要的信息展示在
层次较浅的页面上(例如,在首页上推荐一些热门产品或者内
容)。因此,通过广度优先的抓取方式,搜索引擎就可以优先抓取
到网站中相对重要的页面。
我们来看一下广度优先的抓取流程。首先,搜索引擎从网站的首页
出发,抓取首页上所有链接指向的页面,形成页面集合(A),并
解析出集合(A)中所有页面的链接;再跟踪这些链接抓取下一层
的页面,形成页面集合(B)。就这样递归地从浅层页面中解析出
链接,从而抓取深层页面,直至满足了某个设定的条件后才停止抓
取进程,如图2-2所示。图 2-2 广度优先抓取流程
深度优先
与广度优先的抓取方式恰恰相反,深度优先是一种纵向的页面抓取
方式,首先跟踪的是浅层页面中的某一个链接,从而逐步抓取深层
次页面,直至抓取完最深层次的页面后才返回浅层页面继续向深层
页面抓取。使用深度优先的抓取方式,搜索引擎可以抓取到网站中
比较隐蔽、冷门的页面,这样才能满足更多用户的需求。
我们来看一下深度优先的抓取流程。首先,搜索引擎会抓取网站的
首页,并提取首页中的链接;再沿着其中的一个链接抓取到页面1-
1,同时提取其中的链接;接着,沿着页面1-1中的一个链接A-1抓
取到页面2-1,同时提取其中的链接;再沿着页面2-1中的一个链接
B-1继续抓取更深一层的页面。这样递归地执行,直至抓取到网站
最深层的页面或者满足了某个设定的条件才转回到首页继续抓取,如图2-3所示。图 2-3 深度优先抓取流程
大站优先
由于大型网站比小型网站更有可能提供更多更有价值的内容,因
此,如果搜索引擎优先抓取大型网站中的网页,那么就可以在更短
的时间内为用户提供更有价值的信息。大站优先,顾名思义就是对
互联网中大型网站的页面进行优先抓取,是搜索引擎中的一种信息
抓取策略。
怎样识别所谓的大型网站呢?一是前期人工整理大站种子资源,通
过大站发现其他的大站;二是对已经索引的网站进行系统的分析,从而识别那些内容丰富、规模较大、信息更新频繁的网站。
在完成大站识别后,搜索引擎就会对URL资源列表中大站的页面进
行优先抓取。这也是为什么大型网站往往会比小站内容抓取更及时
的原因之一。
高权重优先
权重,简单地说就是搜索引擎对网页重要性的一种评定。所谓的重要性归根到底就是网站或者网页的信息价值。
高权重优先是对URL资源列表中的高权重网页进行优先抓取的网页
抓取策略。网页权重(如Google PageRank值)高低往往是由诸多
因素决定的,例如,网页的外部链接数量及质量。如果下载一个
URL就重新计算所有已下载URL资源的权重值,这样的效率是极其
低下的,显然是不现实的。所以,搜索引擎会倾向于每下载若干
URL资源后就对已下载的URL进行权重计算(即不完全的权重计
算),以此来确定这些URL资源所对应页面的权重值,从而对较高
权重值的网页进行优先抓取。
由于权重计算是基于部分数据而得出的结果,可能会与真实权重有
较大出入(即失真)。因此,这种高权重优先的抓取策略也有可能
会对次要页面进行优先抓取。
暗网抓取
暗网(又称作深网、不可见网、隐藏网)是指那些存储在网络数据
库里、不能通过超链接访问而需要通过动态网页技术或者人工发起
查询访问的资源集合,不属于那些可以被标准搜索引擎索引的信
息。
1. 查询组合
暗网数据普遍存在于大型网站中,最常见的表现形式就是网站的搜
索功能(包括组合条件查询及文本检索)。例如,旅游网站的机票
数据,由于数据量极其巨大,通过链接的方式显示所有的机票信息
是不现实的。因此,该类网站通常会提供相应的搜索功能供用户使
用,以便用户能够快速检索个人化的需求信息。图2-4是某旅游垂
直网站的机票搜索功能,用户可以通过航程类型、出发城市、到达
城市、出发时间及返回时间等多条件组合来检索机票信息。图 2-4 机票搜索工具
在互联网上,暗网数据量是极其巨大的,但不是所有的暗网数据都
是有价值的,这就要求搜索引擎需要有特殊的蜘蛛程序对这些暗网
数据进行挖掘及识别。
例如,图2-5所示是某人才网的高级搜索功能,至少包含了8个查询
条件,如果搜索引擎将每一个条件组成不同的查询组合提交给网
站,这样不但会给网站的服务器带来极大的压力,而且对于蜘蛛程
序来说也是一个灾难(暂且不论每种条件组合的查询条件得到的查
询结果能得到有价值的信息)。图 2-5 职位搜索工具1
因此,搜索引擎通常只会对有可能返回有价值信息的查询条件进行
组合。如图 2-6所示,对于一些主要的条件如行业分类、职位分
类、工作地点进行组合查询即可找到该站的有价值信息。
图 2-6 职位搜索工具2
2. 文本检索
对于大多数网站而言,文本检索(即站内搜索)是最常见的搜索功
能。因此,文本检索也是最常见的暗网数据获取方式之一。图2-7
所示为当当网的站内搜索功能,搜索引擎通过人工整理一些种子关
键字,向目标网站提交进行查询,除了抓取查询结果页面外,还会
从已抓取回来的页面中提取出新的关键字,进而形成新的待查询关
键字列表。图 2-7 当当网搜索栏
用户提交
为了抓取更多的网页,搜索引擎还允许网站管理员主动提交页面
(如Sitemap方式提交)。网站管理员只需把网站中页面的URL按
照指定的格式制作成文件,提交给搜索引擎,搜索引擎就可以通过
该文件对网站中的页面进行抓取及更新。
这种由网站管理员主动提交页面的方式大大提高了搜索引擎抓取页
面的效率,也大大增加了网站页面被抓取的数量(目前主流的搜索
引擎都支持这种页面抓取方式,如Google、百度及搜狗等)。
说明 为了提高抓取页面的效率及质量,搜索引擎会结合多种策略
去抓取页面。例如,先使用广度优先的方式,把抓取范围铺得尽可
能宽,获取尽可能多的重要页面;再使用深度优先的方式,抓取更
多隐蔽的页面;最后,结合暗网抓取、用户提交等方式抓取那些被
遗漏的页面。
4. 如何避免重复性抓取
在互联网中,信息重复是在所难免的。然而,搜索引擎是怎样识别重复
信息的呢?怎样判断哪些网页的信息是原创的,哪些是复制的?又会认
为哪些重复的信息是有价值的,哪些是可以舍弃的?本节将会给出这些
问题的答案。
网站中的重复信息主要包括转载内容及镜像内容两大类。搜索引擎在对
页面进行分析的时候,必须具备识别重复信息的能力。因为大量的重复
信息不但占用巨大的服务器硬盘空间,而且还会增加用户寻找信息的时
间,降低用户体验。但这并不意味着所有重复信息都是没价值的,搜索
引擎认为转载内容不如原创内容重要,赋予原创内容页面更高的权重,而镜像内容则几乎忽略。
转载页面
转载页面是指那些与原创页面正文内容 相同或相近的页面。然
而,搜索引擎如何识别转载页面呢?首先,它把网页正文内容分
成N个区域并进行比较,如果其中有M个区域(M是搜索引擎指定
3的一个阈值)是相同或者相似的,则认为这些页面互为转载页面。
如图2-8所示,页面1与页面2是不同网站上的两个页面。其中,框
中的A、B分别是两个不同页面上的正文内容。为了识别这两个页
面是否互为转载页面,搜索引擎先把这两个页面的正文内容分成4
个区域进行比较。假设这4个区域中有3个是完全相同或者相似的,那么就认为这两个页面是互为转载的。
图 2-8 页面正文内容对比
在确定页面的互为转载关系后,接下来,搜索引擎再结合页面的最
后修改时间(搜索引擎在抓取页面时已经存储的附加信息,详见后
面“页面存储”的内容)、页面权重等因素判断原创页面与转载页
面。
镜像页面
内容完全相同的页面互为镜像页面。要判断页面是否互为镜像页
面,搜索引擎首先把这些页面分成N个区域进行比较,如果这N个
区域的内容完全一样,则认为这些页面互为镜像页面。然后,再综
合多项因素(例如页面权重值、页面最后修改时间等)来识别哪个
是源页面,哪个是镜像页面。
如图2-9所示,页面1及页面2是不同网站上的两个页面。把这两个页面分成三个区域(即A-1、A-2、A-3与B-1、B-2、B-3)进行比
较,如果这三个区域内容完全一样,则认为这两个网页互为镜像页
面。
图 2-9 页面对比
镜像网站
狭义上的镜像网站是指内容完全相同的网站,形成镜像网站主要有
两种情况:第一种是多个域名或IP指向同一服务器的同一个物理目
录;另外一种是整个网站内容被复制到使用不同域名或者不同IP的
服务器上。
为了识别站点间是否互为镜像网站,搜索引擎首先判断这些网站的
首页以及与首页直接链接的页面是否互为镜像页面。如果是,则互
为镜像网站。然后,再综合多项因素(例如网站权重值、建立时间
等)来识别哪个是源网站,哪个是镜像网站。这样,以后抓取页面
的时候就集中在源网站中进行,这也是为什么搜索引擎对于镜像网
站只抓取极少页面甚至是不抓取的原因。
搜索引擎通过算法消除页面中的辅助信息(如导航栏、图片等)后,就得到页面的正文内
容。
5. 网页更新策略
3由于搜索引擎不可能一次性抓取到网站中所有的页面,而且网站中页面
的数量也会不断地变化,内容也在不断地更新,因此,搜索引擎还需要
对已经抓取的页面进行维护、更新,以便能及时获取页面中最新的信
息,抓取更多的新页面。常见页面维护方式包括:定期抓取、增量抓
取、分类定位抓取、历史更新策略及用户体验策略。
定期抓取
定期抓取也称为周期性抓取,即搜索引擎周期性地对网站中已经抓
取的页面进行全面更新。更新的时候,把抓取到的新页面替换原有
的旧页面,删除不存在的页面,并存储新发现的页面。周期性更新
针对的是全部已抓取的页面,因此更新周期会比较长。例如,Google一般是30~60天才会对已抓取的页面进行更新。
定期抓取算法的实现相对简单。由于每次更新涉及到网站中所有已
经抓取的页面,因此页面权重的再分配也是同步进行的。这适用于
维护页面比较少、内容更新缓慢的网站,例如普通的企业网站。但
是,由于更新周期十分漫长,就不能及时向用户反映更新期间页面
的变化情况。例如,某个页面的内容更新以后,至少需要30~60天
才能在搜索引擎上有所体现。
增量抓取
增量抓取是通过对已抓取的页面进行定时监控,实现对页面的更新
及维护。但是,对网站中的每个页面都进行定时监控是不现实的。
基于重要页面携带重要内容的思想以及8020法则 ,搜索引擎只需
对网站中部分重要页面进行定时的监控,即可获取网站中相对重要
的信息。
因此,增量抓取只针对网站中某些重要的页面,而非所有已经抓取
的页面,这也是为什么搜索引擎对重要页面的更新周期会更短的原
因。例如,内容经常更新的页面,搜索引擎也会经常对其进行更
新,从而可以及时发现新内容、新链接,并删除不存在的信息。
由于增量抓取是在原有页面的基础上进行的,因此会大大缩减搜索
引擎的抓取时间,还可以及时向用户展示页面中最新的内容。
分类定位抓取
4与增量抓取由页面重要性决定不同,分类定位抓取是指根据页面的
类别或性质而制定相应更新周期的页面监控方式。例如,新闻资讯
类页面的更新周期可以精确到每分钟,而下载类页面的更新周期就
可以定为一天或更长。
分类定位抓取对不同类别的页面进行分开处理,这样就可以节省大
量的抓取时间,并大大提高页面内容的实时性,增强页面抓取的灵
活性。但是,按照类别制定页面更新周期的方式比较笼统,很难跟
踪页面的更新情况。因为即使是相同类别的页面,在不同的网站上
内容的更新周期也会存在很大的差别。例如新闻类页面,在大型门
户网站中内容的更新速度就会比其他小型网站快得多。所以,还需
要结合其他的方式(例如增量抓取等)对页面进行监控和更新。
实际上,搜索引擎对网站中页面的维护也是结合多种方式进行的,相当于间接为每一个页面选择最合适的维护方式。这样,既可以减
少搜索引擎的负担,又可以为用户提供及时的信息。
例如,一个网站中会存在多种不同性质的页面,常见的包括:首
页、论坛页面、内容页面等。对于更新比较频繁的页面(例如首
页),可以使用增量抓取方式对其进行监控,这样就可以对网站中
相对重要的页面进行及时更新;而对于实时性非常高的论坛页面,则可以采用分类定位的抓取方式;为了防止遗漏网站中的某些页
面,还需要采用定期抓取的方式。
历史更新频率策略
历史更新频率策略基于这样一种思想:某个网页在过去某段时间内
频繁更新,那么在将来的某个时间里也可能会频繁更新。例如,对
于某网站的首页,通过对它进行的监控可以分析出它的内容更新规
律,搜索引擎就可以据此调整对它的抓取频率及时间点,从而及时
获得网页中的最新内容。
用户体验策略
所谓的用户体验策略是指为了提高搜索引擎用户体验而制定的针对
性的网页更新策略。衡量搜索引擎用户体验有众多指标,而网页更
新的及时性是其中一项重要因素。对于搜索引擎中的关键字搜索结果,用户通常只会点击排名前30的
网页。因此,只要及时更新排名前30的网页,即可节省搜索引擎的
资源,提高重要网页的更新频率,也可满足绝大部分用户获取信息
的需求。
8020法则是意大利著名经济学家维尔弗雷德·帕累托发现的,其核心思想是20%的活动能产生
满足80%需求的物质。例如,20%的产品或者服务创造了80%的利润,20%的内容满足80%用
户的需求。
6. 页面存储
通过以上内容,我们已经知道了搜索引擎对页面的抓取及维护方式,接
着,我们还要了解一下搜索引擎在抓取页面后,需要存储哪些信息才能
满足接下来的工作对数据的需求。
页面是搜索引擎对网站进行信息处理的基础,搜索引擎大部分工作都是
在页面上开展的。但是,仅仅依靠页面中的内容并不能满足搜索引擎对
数据处理的需求。搜索引擎能否在抓取页面的过程中获取到更多、更有
价值的信息会直接影响搜索引擎的工作效率及排序结果的质量。所以,搜索引擎在抓取页面时,除了存储原始页面外,还会附加一系列的信息
(例如,文件类型、文件大小、最后修改时间、URL、IP地址、抓取时
间等),再把这些信息作为开展某项工作的依据。例如,如果某个文件
过大,就可能会被搜索引擎放弃索引;而最后修改时间则暗示了页面更
新的日期等。
2.3.2 页面分析
页面抓取只是搜索引擎工作的一个基础环节,页面抓取回来后并不代表
搜索引擎马上就可以向终端用户提供查询服务。因为用户在使用搜索引
擎进行查询的时候,使用的是一个词或者短语,而到目前为止,搜索引
擎仅能提供整个原始页面,不能返回与用户查询条件相匹配的信息。因
此,搜索引擎还需要对原始页面进行一系列的分析和处理,以迎合用户
信息查询的习惯。
如图2-10所示,搜索引擎首先对存储的原始页面建立索引,再过滤原始
网页的标签信息,从中提取出网页中的正文信息;然后,对正文信息进
行切词,并建立关键字索引,得到页面与关键字间的对应关系;最后,对所有关键字进行重组,从而建立关键字与页面之间的对应关系。
4图 2-10 网页分析、处理流程
1. 网页索引
为了提高页面检索的效率,搜索引擎需要对抓取回来的原始页面建立索
引,由于URL就是页面的入口地址,为原始页面建立索引实际上就是为
页面的URL建立索引,这样就可以实现根据URL快速定位到对应的页
面。
2. 网页分析
网页分析是整个网页处理中最重要的环节,包括网页正文信息的提取
(即标签信息过滤)、切词、建立关键字索引列表及关键字重组这几个
重要的步骤。结果形成了一个关键字对应多个原始页面的关系,即形成
了与用户查询习惯相符合的信息雏形。
正文信息提取
网页正文信息的提取实际上就是对网页中非正文信息的过滤。其
中,最为重要的就是对网页中标签信息(例如,HTML标签、JavaScript标签、PHP标签)的过滤。经过标签过滤以后,搜索引擎
就可以得到网页的正文信息。
切词分词
经过对原始页面提取正文信息后,搜索引擎就可以得到页面的实质
内容。而为了得到与用户查询相关的数据,搜索引擎还需要对页面
中的内容进行切分(也就是我们常说的切词或者分词),从而形成
与用户查询条件相匹配的以关键字为单位的信息列表。
每个搜索引擎的切词系统都会存在或多或少的差别,切词系统的优
劣主要取决于开发者对语言的理解能力。特别是在中文语言环境
里,切词算法直接影响网页内容经过切词处理后会产生什么样的关
键字,这些关键字是否与用户的搜索习惯一致。因而,切词的结果
直接决定搜索引擎能否提供与用户查询条件相匹配的信息。在中文环境里,常见的分词方法包括字符串匹配分词及统计分词两
种,下面简单介绍一下这两种中文分词算法。
字符串匹配分词是基于一个足够大、足够权威的“词典”上进行
的。如果页面上的词与“词典”中的词匹配,则为命中。这样就
可以得到一个词或者短语。
统计分词是根据相邻的两个(或者多个)字出现的概率判断这
两个(或者多个)字组合后是否会形成一个词。统计分词也常
常会结合“词典”进行匹配,常用于识别一些新词汇。例
如,“微博”等一些在传统中文语言中不存在的词汇。
关键字索引
网页正文信息在经过切词系统处理后,形成了关键字列表。关键字
列表中的每条记录都包括了该关键字所在的关键字编号、网页编
号、关键字出现次数以及关键字在文档中的位置等信息,如表2-1
所示。
表 2-1 关键字列表
关键字编号 网页编号 关键字 次数 位置
记录1 1 1 K1 3 A1,A5,A7
记录2 2 1 K2 2 A3,A9
记录3 3 1 K3 3 A6,A13,A10
记录4 4 1 K4 1 A2
例如,记录1中的关键字K1在页面中出现了3次,对应页面中的
A1、A5、A7区域,如图2-11所示。图 2-11 关键字K1在页面中的分布示意图
为了提高对关键字的检索效率,搜索引擎还会为关键字列表建立索
引。这样,经过对网页及关键字列表都建立索引后,就可以实现从
一个网页快速定位到某一关键字。
例如,网页0经过信息过滤后得到的内容是“中国广东省深圳市”;
然后,对内容进行切词后产生关键字“中国”“广东省”“深圳市”,并
对关键字建立索引。这样,根据网页0,搜索引擎就可以快速定位
到关键字“中国”“广东省”或“深圳市”上,如图2-12所示。
图 2-12 页面与关键字间的对应关系
然而,用户是通过关键字去寻找那些承载相应信息的页面的,所
以,搜索引擎还需要对已有信息进行相应的处理,建立关键字与页
面URL间的对应关系表,从而实现根据关键字快速定位到多个页面的功能,这就是下面所说的关键字重组问题。
关键字重组
为了迎合用户寻找信息的习惯,即以关键字为条件寻找与关键字相
关的页面。因此,搜索引擎需要建立以关键字为主索引的一个关键
字对应多个页面的关系表,即关键字反向索引表。而建立关键字反
向索引表最重要的任务就是对所有页面中的关键字列表进行重组。
之前对关键字建立索引后,已经产生了网页与关键字的一对多的对
应关系。接下来,搜索引擎把所有页面中的关键字进行重组 ,并
建立关键字索引,从而形成一个不重复的关键字列表集合,即在关
键字列表中,每个关键字都是唯一的。这样,通过某一个特定的关
键字就可以找到一个或者多个网页,从而实现根据关键字返回相应
页面的功能,如图2-13所示。
图 2-13 关键字与页面间的对应关系
关键字重组即把所有页面中的关键字组成一个集合。
经过对原始页面进行分析、处理后,搜索引擎已经可以根据用户的查询
条件返回相应的页面列表。但是,简单地向用户返回这个页面列表,往
往不能满足用户的需要,所以,搜索引擎还会根据页面与用户查询条件
相关性的高低再对这个列表进行重新排列,然后把处理后的列表返回给
用户。这就是下面将要向大家介绍的搜索引擎对页面排序的问题。
2.3.3 页面排序
用户向搜索引擎提交关键字查询信息以后,搜索引擎就在搜索结果页面
返回与该关键字相关的页面列表,这些页面按照与关键字的接近程度由
上至下进行排列。决定页面排列次序的因素非常多,本书将介绍几种最
5
5常见也是最重要的因素,包括页面相关性、链接权重及用户行为。
1. 页面相关性
页面相关性是指页面内容与用户所查询的关键字在意义上的接近程度,主要由关键字匹配度、关键字密度、关键字分布及关键字的权重标签等
决定。
关键字匹配度
关键字匹配度是指页面P中的内容与用户所查询的关键字K之间的
匹配程度,主要由以下两个因素决定。
页面P中是否存在与查询条件关键字K相匹配的内容,即页面
内容中是否包含关键字K。
关键字K在页面P中出现了多少次,即页面P中有多少个关键字
K。
为了计算关键字匹配度,搜索引擎为每个页面分配一个关键字匹配
值,该值由关键字在页面中出现的次数决定。假设某个关键字在页
面中出现一次,关键字匹配值为10,那么,若该关键字在页面中出
现10次,则关键字匹配值=1010。
如果这种假设成立,则某关键字在页面中出现的次数越多(即词频
越高),页面的相关性就越高,这样搜索结果就极容易被网站所有
者操控。例如,一个网站想要提高页面的相关性,只需在页面中添
加足够多的关键字即可。
因此,关键字词频决定页面相关性的做法是极不合理的,还需要结
合关键字密度、关键字分布及关键字的权重标签等多方面来制约。
关键字密度
为了有效防止网站所有者恶意操控搜索结果,搜索引擎根据关键字
词频与网页总词汇量的比例(即关键字密度值)来衡量页面中某关
键字的词频是否合理。
假设页面中某关键字的密度为50%时,这个页面的关键字密度值为20。例如,在内容是camcorder battery的页面中,camcorder的关键
字密度是50%,则针对关键字camcorder,这个页面的关键字密度值
为20。
关键字分布
关键字分布,即关键字在页面中出现的位置。关键字在页面中不同
的位置上出现会对页面的相关性带来一定的影响。搜索引擎通过记
录关键字在页面中出现的位置来计算页面的关键字分布值,从而得
到关键字分布与页面相关性之间的关系。
假设关键字在页面的顶部出现时,关键字分布值为50;而在底部出
现时,关键字分布值为10;则关键字K1同时出现在页面A的顶部与
底部时,该页面的关键字分布值就是60。
标签影响
在网页中,网页制作者利用不同的HTML标签使页面中相关的内容
实现不同的视觉效果(例如字体的样式、字号、颜色等),灵活地
运用各种HTML标签还有助于提高页面相关性。
我们在阅读文章的时候,经常会遇到文章中某些内容的表现形式与
周围的内容是存在明显区别的,例如,某些内容的字体颜色与周围
的内容会形成强烈的反差,或者字号大小不一致等。
这就说明了文章的作者是刻意要突出这部分内容,这部分内容比较
重要。同样,在对网站进行优化的时候,我们也可以使用同样的方
法来突出页面中重要的内容,例如,利用不同的HTML标签去标注
页面中需要突出的内容。这样,搜索引擎在分析页面的时候就会根
据HTML标签识别页面中内容的样式,从而判断页面中哪些内容更
加重要。
在页面权重分配里,按照标签的作用,可以把HTML标签分为权重
标签与非权重标签两大类。权重标签是指会影响页面权重的标签,常见的权重标签包括、
等;而非权重标签常见的
有
、
等。
假设表2-2中是搜索引擎对某些标签权重值的定义,则对于一个内容是搜索引擎优化的页面,针对“搜索引擎优
化”这个关键字,标签权重值等于标签权重值加上标签权
重值,即60。
表 2-2 样式标签与权重值的对应关系
标签名称 标签权重值
10
50
通过对关键字匹配度、关键字密度、关键字分布及权重标签进行说
明后,我们推算出页面相关性的计算公式如下:
W (relevance)=W (match)+W (density)+W (position)+W (tag)
式中,W (relevance)是页面相关性,W(match) 是关键字匹配
值,W(density) 是关键字密度值,W(position) 是关键字分布
值,W(tag) 是标签权重值。
例如,某页面的内容如下:搜索引擎优化
搜索引擎……,则针对“搜索引擎优
化”这个关键字来说,由于只出现一次,则关键字匹配
值W(match)=10;关键字密度是50%,则关键字密度
值W(density)=20;关键字出现在页面的顶部,则关键字分布
值W(position)=50;而权重标签在突出关键字“搜索引擎优化”时
出现了一次,则标签权重值W(tag)=10,即W(relevance)=10+20+50+10。
搜索引擎利用关键字匹配度、关键字密度、关键字分布及权重标签这四
大要素相互制约的作用,完善页面相关性的计算。但是,本节所介绍的
都是一些网站内部可操控因素。为了提高排序中信息的质量,搜索引擎
还引入了一些外部不可操控的因素对页面相关性进行综合评估,例如外
部链接与用户行为等。
2. 链接权重
链接主要分内部链接及外部链接两种,是网页制作或者编缉者在对页面内容进行规划或者编缉时加入到页面中的,加入的理由可能是该链接所
指向的页面非常重要或者是大部分用户所需要的。因此,某一页面得到
的链接越多,从一定程度上反映了该页面越重要,链接权重值就越高。
如果把整个互联网看作是一个有向图,超链接为有向边,网页为节点,那么,绝大部分网页都会有一个“入度”与“出度”,根据网页的入度数量
及提供入度的页面权重值来计算页面链接的权重是一个非常好的想法。
假设图2-14是页面之间的关系图,其中V1、V2、V3为网页;而箭头方
向则代表页面贡献链接或从其他页面中得到的链接。以网页V2为例,V2对V1、V3各贡献了一个链接,而得到了V1的链接。
图 2-14 页面关系图
内部链接
内部链接是指网站内部页面之间的链接关系,体现了网站内部对某
个页面的认可程度。理论上,页面获得的链接质量越高、数量越
多,其重要性也相对越大。
外部链接
外部链接指本站以外的页面之间的链接关系。由于外部链接的不可
操控性,外部链接在整个链接关系中占着更大的权重比例,是决定
整个页面权重最重要的因素。
默认权重分配
网站页面数量是在不断变化的,但由于时间的关系,新增加的页面即使内容质量很高,得到的链接数量也是有限的,因此链接权重值
通常会很低。在这种情况下,搜索引擎就需要对这些新页面的链接
权重值按照相应的方案进行补偿,使得新页面能够得到更合理的链
接权重值。
在链接权重值补偿方面,搜索引擎把页面被抓取的日期作为一个参
考因素。它认为页面在单位时间内获得链接的数量越多、质量越
高,则该页面的质量也相对更高。
例如,页面A得到30个链接,页面B也得到30个链接(假设这些链
接的质量是相等)。但是,页面A花了100天时间,而页面B只花了
1天时间。这从一定程度上反映页面B比页面A更重要。因此,就需
要给页面B进行一定的补偿,使得页面B所得链接权重值高于页面
A。
3. 用户行为
搜索引擎在完成页面基本权重计算以后,就可以向用户展示初步的排序
结果。但这个排序结果不一定能让大部分用户满意,因此还要结合其他
因素对该排序结果进行改进。例如,统计每条搜索结果的点击次数来推
测用户对搜索结果的偏好。
用户对搜索结果的点击行为是衡量页面相关性的因素之一,是完善排序
结果、提高排序结果质量的重要补充,属于外部不可操控因素(详细请
参考2.3.4节)。
综上所述,搜索引擎通过计算页面在页面相关性、链接权重值及用户行
为等方面的得分,得到页面的总权重值;然后,再按照页面的总权重值
从高到低进行排序并把这个经过排序的列表返回给用户。
即W(page)= W(relevance)+ W(link)+ W(user)
式中,W(page)是页面权重值,W (relevance) 是页面相关性值,W (link)
是链接权重值,W (user) 是用户行为得分。
2.3.4 关键字查询
在计算完所有页面的权重后,搜索引擎就可以向用户提供信息查询服务。搜索引擎查询功能的实现非常复杂,用户对返回结果的时间要求也
非常高(通常是秒级),要在这么短的时间内完成这么复杂的计算是不
现实的。所以,搜索引擎需要通过一套高效的机制处理来自用户的查
询。这主要应该包括:
在用户发出查询请求前就完成被查询关键字的反向索引、相关页面
权重计算等工作。
为那些查询最频繁的关键字对应的页面排序列表建立缓存机制。
其中,关键字重组、页面权重分配等工作已经在前面进行了详细的说
明。接下来,就介绍搜索引擎如何建立信息查询的缓存机制。
1. 查询流程
首先,向大家介绍搜索引擎处理用户查询的流程,如图2-15所示。
图 2-15 查询处理流程
1. 先对用户提供的查询条件进行切词,并删除查询条件中没有意义的字
或词,例如,“的”“得”等停用词。
2. 再以切词结果作为条件在关键字反向索引列表中进行匹配。
3. 如果存在匹配结果,则把所有与关键字相匹配的页面的URL组成一个
列表。4. 最后,把匹配的页面按照权重值从高到低进行排序,并返回给用户。
其中,3、4 两个步骤在用户查询之前已经完成。
例如,用户查询“手机图片”,搜索引擎对其进行切词后得到的查询条件
是“手机+图片”;再把“手机+图片”在关键字反向索引列表中进行匹配;
结果得到了A、B、C这三个相关页面;再计算三个页面的权重值,如果
这三个页面的权重值关系是B>C>A,则这三个页面在搜索结果列表中的
排列顺序就是B、C、A。
2. 用户行为
用户在搜索引擎中的行为主要包括搜索及点击,搜索是用户获取信息的
过程,点击是用户得到需要信息后的表现。
用户的搜索及点击行为中蕴含着非常丰富、重要的信息。例如,在用户
搜索行为中包含了提交的关键字、提交时间、用户IP地址等信息,而在
点击行为中则包含了每个结果的点击次数等信息。
搜索引擎通过对用户行为的分析可以进一步发掘用户的需求,提高搜索
结果的精准度。例如,从用户的搜索行为中,搜索引擎还可以发现新词
汇;而从用户对搜索结果的点击行为中,可以分析出用户对每个搜索结
果的偏好等。
搜索
搜索是用户获取信息的途径,是搜索引擎最基本的功能。搜索引擎
可以在用户的搜索行为中得知某一关键字被搜索的次数,通过对关
键字被搜索的次数的分析,可以发现新词汇,进一步了解用户搜索
习惯。
由于语言是不断发展的,随着时间的推移会产生更多的新词汇。特
别是在互联网环境中,某个热点的事件也有可能成为一个新的词
语,例如“艳照门”等。
对搜索引擎而言,新生词汇主要是指那些目前搜索引擎词典系统里
不存在、但是又被频繁搜索的关键字。如果某一关键字在搜索引擎
词典系统里不存在,则切词时就不会产生该关键字,这样用户在查询该关键字时就返回不了相关的信息,也就不能满足用户的需求。
因此,搜索引擎对新词汇的学习能力从一定程度上反映了搜索引擎
对语言的理解能力,是衡量搜索引擎好坏的重要指标之一。
结合用户搜索习惯与页面内容去发掘新关键字是搜索引擎学习新词
汇的主要方式之一,如图2-16所示。
图 2-16 新词汇识别流程
对用户查询日志进行分析,筛选出日志中查询相对频繁的词
汇。
如果某个查询相对频繁的关键字不存在于词典系统中,就把这
个关键字与部分页面的内容进行匹配;如果命中,则表明该关
键字是存在的,加入词典系统;否则,对下一个查询频繁词语
进行匹配。
点击
点击是用户找到所需信息后的表现,反映了用户对信息的关注。因
此,用户对链接的点击也是衡量页面相关性的一个因素,是衡量页
面相关性的一个重要补充。
在同一个关键字的搜索结果列表中,不同的用户会有不同的选择。
但是,如果某一个结果的点击次数明显多于其他结果,则从一定程
度上反映了该页面是大部分用户所需要的(特别是当该链接处在比
较靠后的位置时)。众所周知,搜索结果中越靠前的链接得到点击的几率就会越高。按
照这样的逻辑,那么在排在第二、第三甚至第四的页面被点击的机
会就会变得越来越小,但这并不代表这些页面就不比排在前面的页
面重要,只是在目前的排序结果中,用户还没机会发现它们而已。
所以,对于不同位置上链接的点击,搜索引擎会对其权重值进行相
应的补偿。假设排在第一位的结果每被点击一次会产生1分的补
偿,而排名在100名的结果被点击一次则会产生10分甚至更多的补
偿。
3. 缓存机制
为了能在极短的时间内响应用户的查询请求,搜索引擎除了在用户提交
查询信息前就生成关键字对应的页面排序列表以外,还需要为那些查询
最频繁的关键字对应的页面排序列表建立缓存机制。
经过统计,搜索引擎发现关键字查询的集中现象非常明显。查询次数最
多的前20%的关键字大约占了总查询次数的80%(即著名的8020法
则)。因此,只要我们对这20%左右的关键字建立缓存就可以满足80%
的查询需求。
由于用户查询时返回的信息主要是与关键字相关的页面排序列表,因此
关键字缓存机制的建立主要是针对与关键字相关的页面排序列表。在对
常用关键字的页面排序列表建立缓存后,搜索引擎就可以把缓存中的信
息返回给用户,这样速度就会非常快,也就能满足绝大部分用户的需
求。
由于互联网中的信息是时刻都在增长的,如果搜索引擎每次都向用户返
回同样的信息,那么不但用户得不到更高质量的信息,其他网站也不能
向用户展示最新的高质量信息,从而造成信息滞后。因此,搜索引擎还
会对缓存中的内容进行定期更新。2.4 搜索引擎特色算法
为了不断提高查询结果的效率与质量,搜索引擎会不断地对自身的算法
进行改进。在过去的几年里,主流搜索引擎(特别是Google)进行了数
次重要的算法升级。这里向大家介绍几个重要的算法,包括
TrustRank、BadRank及百度的绿萝算法。
2.4.1 TrustRank算法
TrustRank(信任指数),是基于网页与可信任网页之间的链接关系及
传播深度来计算网页间信任程度的算法,目的是从互联网中筛选出质量
相对较高的网页。
TrustRank算法认为,如果某网页与可信任网页之间存在链接关系,那
么链接深度越小,该网页的可信任指数就会越高,权重就会越大。通过
TrustRank算法,搜索引擎可以找到互联网中相对权威的网站或者网
页,如果进一步细分至不同行业,就可以挖掘出不同行业中的权威网站
或网页。TrustRank算法属于信任传播类模型,主要有两步工作流程。
1. 可信任网页集合筛选。TrustRank算法通过人工审核的方式来判断某
个网页是否属于可信任网页,从而将可信任网页加入到可信任网页集合
中(即网页白名单)。由于互联网上存在着海量的网页,因此需要通过
相应的算法进行预过滤,再对符合条件的网页进行人工筛选。
2. 网页信任值的传播计算。网页信任值的传播涉及两个方面的问题:一
是可信任网页外出链接数量,二是网页与可信任网页之间的链接深度。
可信任网页外出链接数量
一个可信任网页包含的外出链接数越多,被链接的网页得到的信任
值就会越小,反之亦然。假设某个可信任网页的信任值是100,它
存在10个外出链接,如果被指向的网页对信任值进行平均分配,则
每个网页的信任值就是10。
网页与可信任网页的链接深度TrustRank算法除了计算存在直接链接关系的网页外,还会计算存
在间接链接关系的网页。间接链接关系可参考图2-17,A是可信任
网页,A与B存在直接链接关系,B与C存在直接链接关系,那么C
与A之间就是间接的链接关系。
图 2-17 网页间的链接关系
网页与可信任网页之间的链接距离越大,可信任度就越小。通过以
上两种策略计算出某网页的可信任指数,可信任指数越低,该网页
的可靠性就越差,权重就越低。
2.4.2 BadRank算法
BadRank算法基于一个这样的假设:如果某个网页与一个不可信任或具
有作弊行为的网页之间存在链接关系,那么该网页也有可能存在作弊行
为。与TrustRank算法刚好相反,BadRank算法最主要的目的是从互联网
中筛选出质量低下的网页。
BadRand算法与TrustRank算法的工作原理极为相似,首先是确定一批不
可信任网页集合(即网页黑名单),再通过网页与不可信任网页间的链
接关系及链接距离计算出网页的不信任值,从而确定某个网页是否为不
可信任网页。
2.4.3 百度绿萝算法
百度绿萝算法是针对垃圾链接发布的,截至本书定稿时共发布了两个版
本,即百度绿萝算法1.0及2.0。
百度官方于2013年2月19日发布了绿萝算法1.0版本,主要针对超链中
介、出卖链接网站及购买链接网站,是首次明确禁止链接买卖行为。
2013年7月1日,百度官方发布了绿萝算法2.0版本,这次主要是针对软
文发布平台,包括软文发布网站及软文受益网站。
这两次算法更新影响到了国内大部分网站。如果你的网站存在百度绿萝
算法禁止的行为,建议你采取以下措施。停止买卖链接的行为,不管是文本链接的购买还是软文链接。
清理已经购买的文本链接。
利用百度管理员工具的拒绝外链管理功能对以前发布软文的站点进
行链接拒绝。
停止发外链行为,包括论坛、博客等。2.5 搜索引擎介绍
搜索引擎优化的一个主要任务是提高网站的搜索引擎友好性,因此学习
搜索引擎优化还需要熟悉各主要搜索引擎的习性。下面将介绍四类主流
搜索引擎:Google、百度、搜狗及360搜索。
2.5.1 Google
Google是基于全文索引的搜索引擎,源于斯坦福大学的BackRub项目,由Larry Page及Sergey Brin 主要负责。1998年,BackRub更名为Google,并成立公司。发展至今,Google搜索涉及全球多种语言,是目前最有影
响力的搜索引擎,如图2-18所示。
图 2-18 Google中文首页
2010年3月,由于众所周知的原因,Google宣布退出中国市场,其在中国大陆的市场份额已经
所剩无几,均被其他搜索引擎瓜分,其中最大的得益者非百度莫属。
Google是目前世界上最大的搜索引擎,先进的算法被争相模仿。因此,加深对Google的了解可以帮助我们更好地认识其他搜索引擎。
6
6在搜索引擎优化方面,我认为Google与其他搜索引擎主要存在以下明显
的区别。
Google十分重视链接关系,对于链接的质量、数量及相关性方面的
分析技术在业界更是遥遥领先。尽管百度、搜狗及必应也非常重视
链接关系,但对于链接的质量及相关性方面的分析远不如Google。
在切词算法上,Google与其他中文搜索引擎也存在一定的区别。
在对待新网站方面,Google非常严格,新网站只有同时满足多个条
件时,才能正常参与排名竞争,这就是所谓的“沙盒效应”。这样做
可以有效避免垃圾网站,但同时也给一些新的优秀的网站诸多制
肘,很难通过Google向用户展示其极具价值的信息。
在对垃圾信息处理方面,尽管Google目前还是以人工为主,但与其
他搜索引擎相比,Google Spam检测算法已经比较成熟。对于一些
常见的作弊手段,例如伪装(cloaking)、门页(doorway page)、堆砌关键字、隐藏文字、垃圾链接等,Google可以轻易识别。
2.5.2 百度
作为中文搜索引擎的统治者,也许百度的技术不如Google。但是,百度
在中国大陆的市场占有率方面远比Google大得多 。因此,加深对百度
的认识也是非常必要的。百度首页如图2-19所示。
自Google退出中国市场,百度在中国大陆的搜索市场份额就一路飙升,最高时号称占领中国
大陆79%的搜索市场份额,直至360及搜狗的发力才有所回落。
7
7图 2-19 百度首页
如果把决定页面权重的因素分内部因素与外部因素两大类,在百度
中,内部因素与外部因素在影响页面权重方面的差距比较小。
百度对新网站比较宽松,这就造成了搜索结果中充斥着大量的垃圾
信息,严重影响了用户体验。
百度也非常重视链接关系,对于被高质量页面链接的页面会赋予极
高的权重,但不太重视链接关系中网站间的主题相关性。
百度对搜索结果的人工干预非常强。
2.5.3 搜狗
搜狗是搜狐公司于2004年推出的互动式搜索引擎,经历了将近10年的发
展,搜狗的检索技术不断地成熟,在中文搜索引擎中也占有一席之地。
特别是在2013年宣布与腾讯搜搜合并后,其覆盖人群进一步扩大,成为
中文搜索引擎的一支后起之秀,号称市场占有率达12%。图2-20为搜狗
首页。图 2-20 搜狗首页
2.5.4 360搜索
360于2013年8月推出了自有搜索引擎360搜索,凭借巨大的浏览器安装
率,360搜索自上线之日起即获得相当可观的市场占有率。半年内更是
攻城掠地,不仅将原Google的市场份额洗劫一空,更是不断深入百度及
搜狗的腹地,成为中国大陆不可小视的力量,更让百度寝食难安。图2-
21为360搜索首页。图 2-21 360搜索
不管是百度、搜狗还是360,他们在搜索方面的技术都存在很多相似之
处,我们不太可能分别针对三大不同的搜索引擎来优化我们的网站。我
的原则是在满足百度的基础之上,兼顾其他的搜索引擎。
了解搜索引擎的工作原理是开展搜索引擎优化工作的基础。只有充分掌
握搜索引擎工作的流程及原理,我们才能更好地规划网站,提高网站的
搜索引擎友好性。第 3 章 关键字
要对网站进行优化,首先需要为网站中的页面选择合适的关键字,然后,围绕突出关键字、提高页面相关性开展一系列的工作,从而
提高页面在相应关键字搜索结果中的排名。本章将在关键字策略一
节中介绍如何寻找及筛选关键字;而对于突出关键字、提高页面相
关性则分别在关键字词频、关键字密度、辅关键字及关键字分布中
进行说明。
本章内容
关键字简介
关键字词频
关键字密度
关键字词频与密度的关系
主关键字
辅关键字
关键字分布及表现形式
关键字策略3.1 关键字简介
关键字(keyword)在不同的领域有不同的含义。在搜索引擎中,关键
字是指用户在寻找相关内容时所使用的信息,是搜索应用的基础,也是
搜索引擎优化的基础。搜索引擎优化的作用之一就是提高页面与某个关
键字之间的相关性,要了解关键字与页面相关性的关系,我们要从认识
关键字词频及关键字密度开始。3.2 关键字词频
关键字词频是指某个关键字在页面中出现的频率,也即关键字在页面中
出现的次数,从一定程度上反映了页面与该关键字之间的相关性。
在搜索引擎发展初期,搜索结果中页面的排序基本是由关键字词频所决
定的。也就是说,页面中某个关键字出现的次数越多,说明该页面与此
关键字间的相关性就越高,因此,在这个关键字的搜索结果中排名就越
靠前。这种单纯以词频决定排序的方式,极容易被恶意操纵,从而影响
搜索引擎的用户体验。因此,搜索引擎逐渐引进了诸如关键字密度、关
键字分布、链接锚文本、外部链接数量、外部链接质量及外部链接相关
性等因素进行制约。3.3 关键字密度
在实际中,常用关键字密度来衡量页面中关键字的词频是否合理。关键
字密度主要由关键字词频及总词汇量两个因素决定,这三者之间的关系
如下:
关键字密度=关键字词频总词汇量
式中,总词汇量是指页面程序标签(如HTML标签及ASP、JSP、PHP
等)以外的词汇的数量。
以下对关键字密度的理解是不正确的:关键字密度=关键字总字节数
页面总字节数。
目前很多所谓的中文关键字密度工具都是按照这样的方法计算关键字密
度的。例如,对于中文关键字“手机”,在页面中出现了1次,如果页面
大小是1KB,则“手机”的关键字密度就是41024(1个中文字符=2字节,1个英文字符=1字节)。这样的统计结果是错误的。
了解关键字密度,要先认识搜索引擎对页面的分词。本书将从中英文这
两种我们平常接触得最多的语言出发介绍关键字密度。
3.3.1 英文关键字密度
要了解英文关键字密度,关键是要认识在英文语言环境中,搜索引擎是
怎样对页面进行分词的。
1. 分词
分词又称为切词,是指把网页中的正文内容 划分为若干个具有实际意
义的词汇(参见2.3.2节)。
网页正文内容是指去掉网页中程序标签(如HTML标签、JSP等)以外的内容。
2. 英文分词
在英文书面表达里,空格是单词之间的自然分隔符,而句点就是一个句
1
1子或者段落结束的标记。根据这个特征,搜索引擎就可以轻易地对网页
正文内容进行准确的划分。
如图3-1所示,camcorder battery之间的空格就单词camcorder与单词
battery间的分隔符;而句点“.”则是该句子结束的标记。
图 3-1 英文句子
3. 英文关键字密度
在英文中,同一单词的不同形式会被认为是两个不同的单词(大小写除
外)。例如,battery与其复数形式batteries,就会被认为是两个不同的单
词。在图3-1的句子中,battery与batteries各在页面中出现了1次,则
battery与batteries的关键字密度都是117。
而对于英文词组,在衡量这个英文词组的关键字密度是否合理时,除了
计算这个英文词组的关键字密度以外,还要计算组成英文词组里的每一
个单词的密度。例如,在图3-1中,对于词组关键字camcorder battery,除了要统计camcorder battery这个词组的关键字密度以外,还要统计
camcorder battery中的camcorder与battery的关键字密度。即camcorder
battery在页面中出现了一次,它的关键字密度 就是116 ,而 camcorder
与battery都只出现了一次,则它们的关键字密度都为117。
由于camcorder battery被看作一个整体,所以,网页中的词汇量只有16。
通过手工的方式去统计页面中的关键字密度显然是不可行的。下面,向
大家介绍一个计算英文页面中关键字密度的工具—关键字密度检查器。
4. 英文关键字密度工具
关键字密度检查器(工具地址:http:www.webconfs.comkeyword-
density-checker.php)只适用于英文网站,这个工具通过统计页面中每一
个单词出现的次数,计算出每个单词占页面总单词量的比例,如图3-2
2
2所示。
图 3-2 关键字密度检查器界面
我们只需要在文本框中输入要查询的页面URL即可,例如输
入http:www.pcb-prototype.net,点击submit即可查询该页面中关键字的
密度,如图3-3所示。
图 3-3 页面中部分关键字的密度
3.3.2 中文关键字密度
1. 中文分词
在中文里,字或者词之间并不存在自然分隔符,而且中文里的词通常由
两个或两个以上的中文字符组成。因此,搜索引擎不能借助分隔符对页
面的正文内容进行分词,而是基于自有词典,再结合某种算法对页面正文内容进行分词(请参考2.3.2节)。
2. 中文关键字密度
为了让读者可以更加容易理解中文关键字密度 ,下面举一个简单的例
子进行说明。例如,网页内容为“我的笔记本”,基于现有的词典,搜索
引擎将其分为“我”“的”“笔记本”,则关键字“笔记本”在这个网页中的密
度就是13。
由于中文存在分词问题,目前还没有工具可以准确地统计中文关键字密度。
对于短语关键字,在衡量这个短语的关键字密度是否合理时,除了计算
这个短语的关键字密度,还要计算组成短语里的每个词的密度。例
如,“智能手机走进大众市场”切分为“智能”“手机”“走进”“大众”“市
场”。短语关键字“智能手机”的关键字密度是14 ,而“智能手机”中
的“智能”及“手机”各出现了一次,它们的关键字密度都是15。
由于“智能手机”被看作是一个整体,所以,网页中的词汇量只有4。
3.3.3 关键字密度范围
通过以上内容,我们知道了搜索引擎对页面的分词方法,以及如何计算
中英文页面中的关键字密度。然而,网页中关键字的密度在什么范围内
才被认为是与某关键字高相关的?具体我们无从得知。通常,搜索引擎
会对若干样本数据进行综合分析,最终确定关键字密度值在哪个范围内
页面相关性更高,再以此值来衡量待分析网页中的关键字密度是否合
理。
关键字密度的范围在不同的搜索引擎中会有所差别。基于长期的英文网
站优化经验,一般认为,关键字密度在6%~10% 是比较合理的。
此值仅是基于经验总结出来,主观性较强,而且目前并没有中文关键字密度分析工具,因此
对于中文网页意义不大。
3.3.4 关键字密度与页面相关性
关键字密度是衡量页面相关性的重要指标之一。搜索引擎会根据页面中
每个关键字的密度对页面的主题进行定位。也就是说,如果我们的页面
3
3
4
4
5
5要出现在某个关键字K的搜索结果中,最基本的是页面中K的关键字密
度要在某个特定的范围以内(如6%~10%)。
例如,要想让网站中的某个页面出现在“手机”的搜索结果中,则首要条
件就是该页面上“手机”这个词的关键字密度要在某一个特定的范围内。
否则,就会被排除在“手机”的搜索结果以外。3.4 关键字词频与密度的关系
尽管关键字密度与关键字词频都是表达页面中某个关键字的多寡,但是
两者的含义却存在很大差别。关键字词频表达的是关键字出现的次数,而关键字密度表达的是该关键字的词频与页面总词汇量的比例。两者的
关系如下。
关键字密度是衡量页面中关键字词频是否合理的重要指标。
当两个页面词汇量相等时,关键字密度越大,词频就越大;反之亦
然。但是,不管是关键字密度还是词频,都不是越大越好,而是有
一个阈值。关键字密度达到某个阈值时,页面相关性最高,当高于
或者低于这个阈值时,页面相关性就会出现递减。如图3-4所示。
图 3-4 关键字密度与页面相关性的关系3.5 主关键字
主关键字是指表达页面主题的关键字,而非意义最广泛的关键字。例
如,一个页面的主题是“手机铃声下载”,那么这个页面的主关键字就
是“手机铃声下载”,而非“手机铃声”或者“手机”。3.6 辅关键字
由于一个关键字会存在多种不同的表达或者描述方式,从而产生了所谓
的辅关键字。例如,英文的单复数或词组,中文的结构短语(如形容词
+名词),等等。
3.6.1 辅关键字简介
辅关键字是指对主关键字进行相应的增加或删除以后产生的、对主关键
字的意义在程度或者范围上起到扩大或者缩小作用的关键字。
在英文语言环境里,我们除了可以使用主关键字与其他单词或词组
组合后产生的新词组作为辅关键字以外,还可以选择主关键字的单
复数等形式作为辅关键字。例如,battery与另外一个单词camcorder
组合后产生的词组camcorder battery是一个辅关键字;而复数形式
batteries也是主关键字battery的一个辅关键字。
在中文语言环境中,我们也是通过对主关键字进行相应增加或删除
的方法得到辅关键字。例如,主关键字“手机”与“智能”这个词组合
后,就产生一个新的辅关键字“智能手机”。
3.6.2 辅关键字作用
在页面中,辅关键字可以有效增加主关键字的词频,突出页面的主题。
此外,辅关键字的存在还会提高页面被检索的几率,从而增加网站的流
量。
1. 在内容方面,辅关键字是主关键字的一个重要的说明及补充。
例如,有两个网站,包含以下栏目。
甲网站:“手机”“诺基亚”“三星”“摩托罗拉”“多普达”
乙网站:“手机”“智能手机”“拍照手机”“音乐手机”“娱乐手机”
乙网站中的辅关键字“智能手机”“拍照手机”“音乐手机”“娱乐手机”就可以对主关键字“手机”进行重要的补充,提高页面相关性。
2. 利用辅关键字可以有效增加主关键字的词频,控制关键字密度,避免
为了提高主关键字词频而陷入堆砌关键字的误区。
例如,有两个内容如下的页面。
页面1:“手机”“智能手机”“商务手机”“音乐手机”“拍照手机”
页面2:“手机”“手机”“手机”手机”“手机”“手机”
搜索引擎对页面1进行分词操作后,得到词汇:“手机”“智能”“手
机”“商务”“手机”“音乐”“手机”“拍照”“手机”,则页面1中主关键
字“手机”的关键字密度就是59,而词频是5。
而经过对页面2进行分词操作后,得词汇“手机”“手机”“手机”“手
机”“手机”。则主关键字“手机”的关键字密度是100%,而词频也是
5。
假设关键字密度在10%的时候,页面相关性最高。页面1显然比页
面2更接近这个值。
3. 增加相关的辅关键字还可以提高页面在其他关键字搜索结果中被检索
的几率。
例如,一个页面中存在主关键字“手机”及辅关键字“手机报价”“手机图
片”,那么用户除了可以在主关键字“手机“的搜索结果中发现该页面以
外,还有可能在“手机报价”“手机图片”等辅关键字的搜索结果中发现该
页面。
经过上面的介绍,相信读者对关键字词频及密度与页面相关性的关系已
经有了一定的了解。接下来介绍的是关键字的分布及表现形式与页面相
关性之间的关系。3.7 关键字分布及表现形式
搜索引擎对网页的分析是在网页的HTML源代码上进行的,网页的源代
码从一定程度上反映了搜索引擎分析网页内容的先后顺序。本节将结合
页面布局及HTML源代码对关键字的分布规律进行说明。
3.7.1 关键字分布
搜索引擎分析网页的时候,在HTML源代码中是自上而下地进行的。而
从页面布局的角度上看,则是自上而下、自左而右地进行的,这与用户
浏览网页的习惯也是相符合的。因此,搜索引擎会更加重视网页中首先
出现的内容,我们在规划页面时也应该把相对重要的内容安排在页面的
顶部。如图3-5所示,搜索引擎对页面的重视程度沿着箭头方向逐渐降
低。
图 3-5 用户浏览习惯
下面,我们再从文章写作的角度分析关键字的分布规律。在一篇文章
中,题目是最先出现的;然后就是文章的简述;再就是围绕文章主题而展开描述的内容;最后通常是对文章内容的总结。对于网页而言,网页
标题标签就是网页的“题目”;描述标签的内容则是文章的简述,网页正
文内容就是文章内容,网页最底部内容就是文章内容的总结。因此,页
面中的主辅关键字应该合理地分布在这些区域上。
1. 页面头部,主要包括标题、描述及关键字标签(简称TDK标签)。标
题内容在网页头部中是最先出现的,然后就是描述(这相当于文章的题
目与简述)及关键字标签的内容。所以,要让主关键字优先出现在标题
及描述内容的最前面(TDK优化请参考5.3节)。
如下面代码所示,主关键字“长沙激光治疗近视价格”在标题及描述内容
的最前面出现。
长沙激光治疗近视价格 – 康华眼科网
2. 网页正文。在网页正文中,相对重要的就是网页的最顶部及最底部,即接近 标签后及标签前的位置,如下所示。
顶部代码:
的页面,针对“搜索引擎优
化”这个关键字,标签权重值等于标签权重值加上标签权
重值,即60。
表 2-2 样式标签与权重值的对应关系
标签名称 标签权重值
10
50
通过对关键字匹配度、关键字密度、关键字分布及权重标签进行说
明后,我们推算出页面相关性的计算公式如下:
W (relevance)=W (match)+W (density)+W (position)+W (tag)
式中,W (relevance)是页面相关性,W(match) 是关键字匹配
值,W(density) 是关键字密度值,W(position) 是关键字分布
值,W(tag) 是标签权重值。
例如,某页面的内容如下:搜索引擎优化
搜索引擎……,则针对“搜索引擎优
化”这个关键字来说,由于只出现一次,则关键字匹配
值W(match)=10;关键字密度是50%,则关键字密度
值W(density)=20;关键字出现在页面的顶部,则关键字分布
值W(position)=50;而权重标签在突出关键字“搜索引擎优化”时
出现了一次,则标签权重值W(tag)=10,即W(relevance)=10+20+50+10。
搜索引擎利用关键字匹配度、关键字密度、关键字分布及权重标签这四
大要素相互制约的作用,完善页面相关性的计算。但是,本节所介绍的
都是一些网站内部可操控因素。为了提高排序中信息的质量,搜索引擎
还引入了一些外部不可操控的因素对页面相关性进行综合评估,例如外
部链接与用户行为等。
2. 链接权重
链接主要分内部链接及外部链接两种,是网页制作或者编缉者在对页面内容进行规划或者编缉时加入到页面中的,加入的理由可能是该链接所
指向的页面非常重要或者是大部分用户所需要的。因此,某一页面得到
的链接越多,从一定程度上反映了该页面越重要,链接权重值就越高。
如果把整个互联网看作是一个有向图,超链接为有向边,网页为节点,那么,绝大部分网页都会有一个“入度”与“出度”,根据网页的入度数量
及提供入度的页面权重值来计算页面链接的权重是一个非常好的想法。
假设图2-14是页面之间的关系图,其中V1、V2、V3为网页;而箭头方
向则代表页面贡献链接或从其他页面中得到的链接。以网页V2为例,V2对V1、V3各贡献了一个链接,而得到了V1的链接。
图 2-14 页面关系图
内部链接
内部链接是指网站内部页面之间的链接关系,体现了网站内部对某
个页面的认可程度。理论上,页面获得的链接质量越高、数量越
多,其重要性也相对越大。
外部链接
外部链接指本站以外的页面之间的链接关系。由于外部链接的不可
操控性,外部链接在整个链接关系中占着更大的权重比例,是决定
整个页面权重最重要的因素。
默认权重分配
网站页面数量是在不断变化的,但由于时间的关系,新增加的页面即使内容质量很高,得到的链接数量也是有限的,因此链接权重值
通常会很低。在这种情况下,搜索引擎就需要对这些新页面的链接
权重值按照相应的方案进行补偿,使得新页面能够得到更合理的链
接权重值。
在链接权重值补偿方面,搜索引擎把页面被抓取的日期作为一个参
考因素。它认为页面在单位时间内获得链接的数量越多、质量越
高,则该页面的质量也相对更高。
例如,页面A得到30个链接,页面B也得到30个链接(假设这些链
接的质量是相等)。但是,页面A花了100天时间,而页面B只花了
1天时间。这从一定程度上反映页面B比页面A更重要。因此,就需
要给页面B进行一定的补偿,使得页面B所得链接权重值高于页面
A。
3. 用户行为
搜索引擎在完成页面基本权重计算以后,就可以向用户展示初步的排序
结果。但这个排序结果不一定能让大部分用户满意,因此还要结合其他
因素对该排序结果进行改进。例如,统计每条搜索结果的点击次数来推
测用户对搜索结果的偏好。
用户对搜索结果的点击行为是衡量页面相关性的因素之一,是完善排序
结果、提高排序结果质量的重要补充,属于外部不可操控因素(详细请
参考2.3.4节)。
综上所述,搜索引擎通过计算页面在页面相关性、链接权重值及用户行
为等方面的得分,得到页面的总权重值;然后,再按照页面的总权重值
从高到低进行排序并把这个经过排序的列表返回给用户。
即W(page)= W(relevance)+ W(link)+ W(user)
式中,W(page)是页面权重值,W (relevance) 是页面相关性值,W (link)
是链接权重值,W (user) 是用户行为得分。
2.3.4 关键字查询
在计算完所有页面的权重后,搜索引擎就可以向用户提供信息查询服务。搜索引擎查询功能的实现非常复杂,用户对返回结果的时间要求也
非常高(通常是秒级),要在这么短的时间内完成这么复杂的计算是不
现实的。所以,搜索引擎需要通过一套高效的机制处理来自用户的查
询。这主要应该包括:
在用户发出查询请求前就完成被查询关键字的反向索引、相关页面
权重计算等工作。
为那些查询最频繁的关键字对应的页面排序列表建立缓存机制。
其中,关键字重组、页面权重分配等工作已经在前面进行了详细的说
明。接下来,就介绍搜索引擎如何建立信息查询的缓存机制。
1. 查询流程
首先,向大家介绍搜索引擎处理用户查询的流程,如图2-15所示。
图 2-15 查询处理流程
1. 先对用户提供的查询条件进行切词,并删除查询条件中没有意义的字
或词,例如,“的”“得”等停用词。
2. 再以切词结果作为条件在关键字反向索引列表中进行匹配。
3. 如果存在匹配结果,则把所有与关键字相匹配的页面的URL组成一个
列表。4. 最后,把匹配的页面按照权重值从高到低进行排序,并返回给用户。
其中,3、4 两个步骤在用户查询之前已经完成。
例如,用户查询“手机图片”,搜索引擎对其进行切词后得到的查询条件
是“手机+图片”;再把“手机+图片”在关键字反向索引列表中进行匹配;
结果得到了A、B、C这三个相关页面;再计算三个页面的权重值,如果
这三个页面的权重值关系是B>C>A,则这三个页面在搜索结果列表中的
排列顺序就是B、C、A。
2. 用户行为
用户在搜索引擎中的行为主要包括搜索及点击,搜索是用户获取信息的
过程,点击是用户得到需要信息后的表现。
用户的搜索及点击行为中蕴含着非常丰富、重要的信息。例如,在用户
搜索行为中包含了提交的关键字、提交时间、用户IP地址等信息,而在
点击行为中则包含了每个结果的点击次数等信息。
搜索引擎通过对用户行为的分析可以进一步发掘用户的需求,提高搜索
结果的精准度。例如,从用户的搜索行为中,搜索引擎还可以发现新词
汇;而从用户对搜索结果的点击行为中,可以分析出用户对每个搜索结
果的偏好等。
搜索
搜索是用户获取信息的途径,是搜索引擎最基本的功能。搜索引擎
可以在用户的搜索行为中得知某一关键字被搜索的次数,通过对关
键字被搜索的次数的分析,可以发现新词汇,进一步了解用户搜索
习惯。
由于语言是不断发展的,随着时间的推移会产生更多的新词汇。特
别是在互联网环境中,某个热点的事件也有可能成为一个新的词
语,例如“艳照门”等。
对搜索引擎而言,新生词汇主要是指那些目前搜索引擎词典系统里
不存在、但是又被频繁搜索的关键字。如果某一关键字在搜索引擎
词典系统里不存在,则切词时就不会产生该关键字,这样用户在查询该关键字时就返回不了相关的信息,也就不能满足用户的需求。
因此,搜索引擎对新词汇的学习能力从一定程度上反映了搜索引擎
对语言的理解能力,是衡量搜索引擎好坏的重要指标之一。
结合用户搜索习惯与页面内容去发掘新关键字是搜索引擎学习新词
汇的主要方式之一,如图2-16所示。
图 2-16 新词汇识别流程
对用户查询日志进行分析,筛选出日志中查询相对频繁的词
汇。
如果某个查询相对频繁的关键字不存在于词典系统中,就把这
个关键字与部分页面的内容进行匹配;如果命中,则表明该关
键字是存在的,加入词典系统;否则,对下一个查询频繁词语
进行匹配。
点击
点击是用户找到所需信息后的表现,反映了用户对信息的关注。因
此,用户对链接的点击也是衡量页面相关性的一个因素,是衡量页
面相关性的一个重要补充。
在同一个关键字的搜索结果列表中,不同的用户会有不同的选择。
但是,如果某一个结果的点击次数明显多于其他结果,则从一定程
度上反映了该页面是大部分用户所需要的(特别是当该链接处在比
较靠后的位置时)。众所周知,搜索结果中越靠前的链接得到点击的几率就会越高。按
照这样的逻辑,那么在排在第二、第三甚至第四的页面被点击的机
会就会变得越来越小,但这并不代表这些页面就不比排在前面的页
面重要,只是在目前的排序结果中,用户还没机会发现它们而已。
所以,对于不同位置上链接的点击,搜索引擎会对其权重值进行相
应的补偿。假设排在第一位的结果每被点击一次会产生1分的补
偿,而排名在100名的结果被点击一次则会产生10分甚至更多的补
偿。
3. 缓存机制
为了能在极短的时间内响应用户的查询请求,搜索引擎除了在用户提交
查询信息前就生成关键字对应的页面排序列表以外,还需要为那些查询
最频繁的关键字对应的页面排序列表建立缓存机制。
经过统计,搜索引擎发现关键字查询的集中现象非常明显。查询次数最
多的前20%的关键字大约占了总查询次数的80%(即著名的8020法
则)。因此,只要我们对这20%左右的关键字建立缓存就可以满足80%
的查询需求。
由于用户查询时返回的信息主要是与关键字相关的页面排序列表,因此
关键字缓存机制的建立主要是针对与关键字相关的页面排序列表。在对
常用关键字的页面排序列表建立缓存后,搜索引擎就可以把缓存中的信
息返回给用户,这样速度就会非常快,也就能满足绝大部分用户的需
求。
由于互联网中的信息是时刻都在增长的,如果搜索引擎每次都向用户返
回同样的信息,那么不但用户得不到更高质量的信息,其他网站也不能
向用户展示最新的高质量信息,从而造成信息滞后。因此,搜索引擎还
会对缓存中的内容进行定期更新。2.4 搜索引擎特色算法
为了不断提高查询结果的效率与质量,搜索引擎会不断地对自身的算法
进行改进。在过去的几年里,主流搜索引擎(特别是Google)进行了数
次重要的算法升级。这里向大家介绍几个重要的算法,包括
TrustRank、BadRank及百度的绿萝算法。
2.4.1 TrustRank算法
TrustRank(信任指数),是基于网页与可信任网页之间的链接关系及
传播深度来计算网页间信任程度的算法,目的是从互联网中筛选出质量
相对较高的网页。
TrustRank算法认为,如果某网页与可信任网页之间存在链接关系,那
么链接深度越小,该网页的可信任指数就会越高,权重就会越大。通过
TrustRank算法,搜索引擎可以找到互联网中相对权威的网站或者网
页,如果进一步细分至不同行业,就可以挖掘出不同行业中的权威网站
或网页。TrustRank算法属于信任传播类模型,主要有两步工作流程。
1. 可信任网页集合筛选。TrustRank算法通过人工审核的方式来判断某
个网页是否属于可信任网页,从而将可信任网页加入到可信任网页集合
中(即网页白名单)。由于互联网上存在着海量的网页,因此需要通过
相应的算法进行预过滤,再对符合条件的网页进行人工筛选。
2. 网页信任值的传播计算。网页信任值的传播涉及两个方面的问题:一
是可信任网页外出链接数量,二是网页与可信任网页之间的链接深度。
可信任网页外出链接数量
一个可信任网页包含的外出链接数越多,被链接的网页得到的信任
值就会越小,反之亦然。假设某个可信任网页的信任值是100,它
存在10个外出链接,如果被指向的网页对信任值进行平均分配,则
每个网页的信任值就是10。
网页与可信任网页的链接深度TrustRank算法除了计算存在直接链接关系的网页外,还会计算存
在间接链接关系的网页。间接链接关系可参考图2-17,A是可信任
网页,A与B存在直接链接关系,B与C存在直接链接关系,那么C
与A之间就是间接的链接关系。
图 2-17 网页间的链接关系
网页与可信任网页之间的链接距离越大,可信任度就越小。通过以
上两种策略计算出某网页的可信任指数,可信任指数越低,该网页
的可靠性就越差,权重就越低。
2.4.2 BadRank算法
BadRank算法基于一个这样的假设:如果某个网页与一个不可信任或具
有作弊行为的网页之间存在链接关系,那么该网页也有可能存在作弊行
为。与TrustRank算法刚好相反,BadRank算法最主要的目的是从互联网
中筛选出质量低下的网页。
BadRand算法与TrustRank算法的工作原理极为相似,首先是确定一批不
可信任网页集合(即网页黑名单),再通过网页与不可信任网页间的链
接关系及链接距离计算出网页的不信任值,从而确定某个网页是否为不
可信任网页。
2.4.3 百度绿萝算法
百度绿萝算法是针对垃圾链接发布的,截至本书定稿时共发布了两个版
本,即百度绿萝算法1.0及2.0。
百度官方于2013年2月19日发布了绿萝算法1.0版本,主要针对超链中
介、出卖链接网站及购买链接网站,是首次明确禁止链接买卖行为。
2013年7月1日,百度官方发布了绿萝算法2.0版本,这次主要是针对软
文发布平台,包括软文发布网站及软文受益网站。
这两次算法更新影响到了国内大部分网站。如果你的网站存在百度绿萝
算法禁止的行为,建议你采取以下措施。停止买卖链接的行为,不管是文本链接的购买还是软文链接。
清理已经购买的文本链接。
利用百度管理员工具的拒绝外链管理功能对以前发布软文的站点进
行链接拒绝。
停止发外链行为,包括论坛、博客等。2.5 搜索引擎介绍
搜索引擎优化的一个主要任务是提高网站的搜索引擎友好性,因此学习
搜索引擎优化还需要熟悉各主要搜索引擎的习性。下面将介绍四类主流
搜索引擎:Google、百度、搜狗及360搜索。
2.5.1 Google
Google是基于全文索引的搜索引擎,源于斯坦福大学的BackRub项目,由Larry Page及Sergey Brin 主要负责。1998年,BackRub更名为Google,并成立公司。发展至今,Google搜索涉及全球多种语言,是目前最有影
响力的搜索引擎,如图2-18所示。
图 2-18 Google中文首页
2010年3月,由于众所周知的原因,Google宣布退出中国市场,其在中国大陆的市场份额已经
所剩无几,均被其他搜索引擎瓜分,其中最大的得益者非百度莫属。
Google是目前世界上最大的搜索引擎,先进的算法被争相模仿。因此,加深对Google的了解可以帮助我们更好地认识其他搜索引擎。
6
6在搜索引擎优化方面,我认为Google与其他搜索引擎主要存在以下明显
的区别。
Google十分重视链接关系,对于链接的质量、数量及相关性方面的
分析技术在业界更是遥遥领先。尽管百度、搜狗及必应也非常重视
链接关系,但对于链接的质量及相关性方面的分析远不如Google。
在切词算法上,Google与其他中文搜索引擎也存在一定的区别。
在对待新网站方面,Google非常严格,新网站只有同时满足多个条
件时,才能正常参与排名竞争,这就是所谓的“沙盒效应”。这样做
可以有效避免垃圾网站,但同时也给一些新的优秀的网站诸多制
肘,很难通过Google向用户展示其极具价值的信息。
在对垃圾信息处理方面,尽管Google目前还是以人工为主,但与其
他搜索引擎相比,Google Spam检测算法已经比较成熟。对于一些
常见的作弊手段,例如伪装(cloaking)、门页(doorway page)、堆砌关键字、隐藏文字、垃圾链接等,Google可以轻易识别。
2.5.2 百度
作为中文搜索引擎的统治者,也许百度的技术不如Google。但是,百度
在中国大陆的市场占有率方面远比Google大得多 。因此,加深对百度
的认识也是非常必要的。百度首页如图2-19所示。
自Google退出中国市场,百度在中国大陆的搜索市场份额就一路飙升,最高时号称占领中国
大陆79%的搜索市场份额,直至360及搜狗的发力才有所回落。
7
7图 2-19 百度首页
如果把决定页面权重的因素分内部因素与外部因素两大类,在百度
中,内部因素与外部因素在影响页面权重方面的差距比较小。
百度对新网站比较宽松,这就造成了搜索结果中充斥着大量的垃圾
信息,严重影响了用户体验。
百度也非常重视链接关系,对于被高质量页面链接的页面会赋予极
高的权重,但不太重视链接关系中网站间的主题相关性。
百度对搜索结果的人工干预非常强。
2.5.3 搜狗
搜狗是搜狐公司于2004年推出的互动式搜索引擎,经历了将近10年的发
展,搜狗的检索技术不断地成熟,在中文搜索引擎中也占有一席之地。
特别是在2013年宣布与腾讯搜搜合并后,其覆盖人群进一步扩大,成为
中文搜索引擎的一支后起之秀,号称市场占有率达12%。图2-20为搜狗
首页。图 2-20 搜狗首页
2.5.4 360搜索
360于2013年8月推出了自有搜索引擎360搜索,凭借巨大的浏览器安装
率,360搜索自上线之日起即获得相当可观的市场占有率。半年内更是
攻城掠地,不仅将原Google的市场份额洗劫一空,更是不断深入百度及
搜狗的腹地,成为中国大陆不可小视的力量,更让百度寝食难安。图2-
21为360搜索首页。图 2-21 360搜索
不管是百度、搜狗还是360,他们在搜索方面的技术都存在很多相似之
处,我们不太可能分别针对三大不同的搜索引擎来优化我们的网站。我
的原则是在满足百度的基础之上,兼顾其他的搜索引擎。
了解搜索引擎的工作原理是开展搜索引擎优化工作的基础。只有充分掌
握搜索引擎工作的流程及原理,我们才能更好地规划网站,提高网站的
搜索引擎友好性。第 3 章 关键字
要对网站进行优化,首先需要为网站中的页面选择合适的关键字,然后,围绕突出关键字、提高页面相关性开展一系列的工作,从而
提高页面在相应关键字搜索结果中的排名。本章将在关键字策略一
节中介绍如何寻找及筛选关键字;而对于突出关键字、提高页面相
关性则分别在关键字词频、关键字密度、辅关键字及关键字分布中
进行说明。
本章内容
关键字简介
关键字词频
关键字密度
关键字词频与密度的关系
主关键字
辅关键字
关键字分布及表现形式
关键字策略3.1 关键字简介
关键字(keyword)在不同的领域有不同的含义。在搜索引擎中,关键
字是指用户在寻找相关内容时所使用的信息,是搜索应用的基础,也是
搜索引擎优化的基础。搜索引擎优化的作用之一就是提高页面与某个关
键字之间的相关性,要了解关键字与页面相关性的关系,我们要从认识
关键字词频及关键字密度开始。3.2 关键字词频
关键字词频是指某个关键字在页面中出现的频率,也即关键字在页面中
出现的次数,从一定程度上反映了页面与该关键字之间的相关性。
在搜索引擎发展初期,搜索结果中页面的排序基本是由关键字词频所决
定的。也就是说,页面中某个关键字出现的次数越多,说明该页面与此
关键字间的相关性就越高,因此,在这个关键字的搜索结果中排名就越
靠前。这种单纯以词频决定排序的方式,极容易被恶意操纵,从而影响
搜索引擎的用户体验。因此,搜索引擎逐渐引进了诸如关键字密度、关
键字分布、链接锚文本、外部链接数量、外部链接质量及外部链接相关
性等因素进行制约。3.3 关键字密度
在实际中,常用关键字密度来衡量页面中关键字的词频是否合理。关键
字密度主要由关键字词频及总词汇量两个因素决定,这三者之间的关系
如下:
关键字密度=关键字词频总词汇量
式中,总词汇量是指页面程序标签(如HTML标签及ASP、JSP、PHP
等)以外的词汇的数量。
以下对关键字密度的理解是不正确的:关键字密度=关键字总字节数
页面总字节数。
目前很多所谓的中文关键字密度工具都是按照这样的方法计算关键字密
度的。例如,对于中文关键字“手机”,在页面中出现了1次,如果页面
大小是1KB,则“手机”的关键字密度就是41024(1个中文字符=2字节,1个英文字符=1字节)。这样的统计结果是错误的。
了解关键字密度,要先认识搜索引擎对页面的分词。本书将从中英文这
两种我们平常接触得最多的语言出发介绍关键字密度。
3.3.1 英文关键字密度
要了解英文关键字密度,关键是要认识在英文语言环境中,搜索引擎是
怎样对页面进行分词的。
1. 分词
分词又称为切词,是指把网页中的正文内容 划分为若干个具有实际意
义的词汇(参见2.3.2节)。
网页正文内容是指去掉网页中程序标签(如HTML标签、JSP等)以外的内容。
2. 英文分词
在英文书面表达里,空格是单词之间的自然分隔符,而句点就是一个句
1
1子或者段落结束的标记。根据这个特征,搜索引擎就可以轻易地对网页
正文内容进行准确的划分。
如图3-1所示,camcorder battery之间的空格就单词camcorder与单词
battery间的分隔符;而句点“.”则是该句子结束的标记。
图 3-1 英文句子
3. 英文关键字密度
在英文中,同一单词的不同形式会被认为是两个不同的单词(大小写除
外)。例如,battery与其复数形式batteries,就会被认为是两个不同的单
词。在图3-1的句子中,battery与batteries各在页面中出现了1次,则
battery与batteries的关键字密度都是117。
而对于英文词组,在衡量这个英文词组的关键字密度是否合理时,除了
计算这个英文词组的关键字密度以外,还要计算组成英文词组里的每一
个单词的密度。例如,在图3-1中,对于词组关键字camcorder battery,除了要统计camcorder battery这个词组的关键字密度以外,还要统计
camcorder battery中的camcorder与battery的关键字密度。即camcorder
battery在页面中出现了一次,它的关键字密度 就是116 ,而 camcorder
与battery都只出现了一次,则它们的关键字密度都为117。
由于camcorder battery被看作一个整体,所以,网页中的词汇量只有16。
通过手工的方式去统计页面中的关键字密度显然是不可行的。下面,向
大家介绍一个计算英文页面中关键字密度的工具—关键字密度检查器。
4. 英文关键字密度工具
关键字密度检查器(工具地址:http:www.webconfs.comkeyword-
density-checker.php)只适用于英文网站,这个工具通过统计页面中每一
个单词出现的次数,计算出每个单词占页面总单词量的比例,如图3-2
2
2所示。
图 3-2 关键字密度检查器界面
我们只需要在文本框中输入要查询的页面URL即可,例如输
入http:www.pcb-prototype.net,点击submit即可查询该页面中关键字的
密度,如图3-3所示。
图 3-3 页面中部分关键字的密度
3.3.2 中文关键字密度
1. 中文分词
在中文里,字或者词之间并不存在自然分隔符,而且中文里的词通常由
两个或两个以上的中文字符组成。因此,搜索引擎不能借助分隔符对页
面的正文内容进行分词,而是基于自有词典,再结合某种算法对页面正文内容进行分词(请参考2.3.2节)。
2. 中文关键字密度
为了让读者可以更加容易理解中文关键字密度 ,下面举一个简单的例
子进行说明。例如,网页内容为“我的笔记本”,基于现有的词典,搜索
引擎将其分为“我”“的”“笔记本”,则关键字“笔记本”在这个网页中的密
度就是13。
由于中文存在分词问题,目前还没有工具可以准确地统计中文关键字密度。
对于短语关键字,在衡量这个短语的关键字密度是否合理时,除了计算
这个短语的关键字密度,还要计算组成短语里的每个词的密度。例
如,“智能手机走进大众市场”切分为“智能”“手机”“走进”“大众”“市
场”。短语关键字“智能手机”的关键字密度是14 ,而“智能手机”中
的“智能”及“手机”各出现了一次,它们的关键字密度都是15。
由于“智能手机”被看作是一个整体,所以,网页中的词汇量只有4。
3.3.3 关键字密度范围
通过以上内容,我们知道了搜索引擎对页面的分词方法,以及如何计算
中英文页面中的关键字密度。然而,网页中关键字的密度在什么范围内
才被认为是与某关键字高相关的?具体我们无从得知。通常,搜索引擎
会对若干样本数据进行综合分析,最终确定关键字密度值在哪个范围内
页面相关性更高,再以此值来衡量待分析网页中的关键字密度是否合
理。
关键字密度的范围在不同的搜索引擎中会有所差别。基于长期的英文网
站优化经验,一般认为,关键字密度在6%~10% 是比较合理的。
此值仅是基于经验总结出来,主观性较强,而且目前并没有中文关键字密度分析工具,因此
对于中文网页意义不大。
3.3.4 关键字密度与页面相关性
关键字密度是衡量页面相关性的重要指标之一。搜索引擎会根据页面中
每个关键字的密度对页面的主题进行定位。也就是说,如果我们的页面
3
3
4
4
5
5要出现在某个关键字K的搜索结果中,最基本的是页面中K的关键字密
度要在某个特定的范围以内(如6%~10%)。
例如,要想让网站中的某个页面出现在“手机”的搜索结果中,则首要条
件就是该页面上“手机”这个词的关键字密度要在某一个特定的范围内。
否则,就会被排除在“手机”的搜索结果以外。3.4 关键字词频与密度的关系
尽管关键字密度与关键字词频都是表达页面中某个关键字的多寡,但是
两者的含义却存在很大差别。关键字词频表达的是关键字出现的次数,而关键字密度表达的是该关键字的词频与页面总词汇量的比例。两者的
关系如下。
关键字密度是衡量页面中关键字词频是否合理的重要指标。
当两个页面词汇量相等时,关键字密度越大,词频就越大;反之亦
然。但是,不管是关键字密度还是词频,都不是越大越好,而是有
一个阈值。关键字密度达到某个阈值时,页面相关性最高,当高于
或者低于这个阈值时,页面相关性就会出现递减。如图3-4所示。
图 3-4 关键字密度与页面相关性的关系3.5 主关键字
主关键字是指表达页面主题的关键字,而非意义最广泛的关键字。例
如,一个页面的主题是“手机铃声下载”,那么这个页面的主关键字就
是“手机铃声下载”,而非“手机铃声”或者“手机”。3.6 辅关键字
由于一个关键字会存在多种不同的表达或者描述方式,从而产生了所谓
的辅关键字。例如,英文的单复数或词组,中文的结构短语(如形容词
+名词),等等。
3.6.1 辅关键字简介
辅关键字是指对主关键字进行相应的增加或删除以后产生的、对主关键
字的意义在程度或者范围上起到扩大或者缩小作用的关键字。
在英文语言环境里,我们除了可以使用主关键字与其他单词或词组
组合后产生的新词组作为辅关键字以外,还可以选择主关键字的单
复数等形式作为辅关键字。例如,battery与另外一个单词camcorder
组合后产生的词组camcorder battery是一个辅关键字;而复数形式
batteries也是主关键字battery的一个辅关键字。
在中文语言环境中,我们也是通过对主关键字进行相应增加或删除
的方法得到辅关键字。例如,主关键字“手机”与“智能”这个词组合
后,就产生一个新的辅关键字“智能手机”。
3.6.2 辅关键字作用
在页面中,辅关键字可以有效增加主关键字的词频,突出页面的主题。
此外,辅关键字的存在还会提高页面被检索的几率,从而增加网站的流
量。
1. 在内容方面,辅关键字是主关键字的一个重要的说明及补充。
例如,有两个网站,包含以下栏目。
甲网站:“手机”“诺基亚”“三星”“摩托罗拉”“多普达”
乙网站:“手机”“智能手机”“拍照手机”“音乐手机”“娱乐手机”
乙网站中的辅关键字“智能手机”“拍照手机”“音乐手机”“娱乐手机”就可以对主关键字“手机”进行重要的补充,提高页面相关性。
2. 利用辅关键字可以有效增加主关键字的词频,控制关键字密度,避免
为了提高主关键字词频而陷入堆砌关键字的误区。
例如,有两个内容如下的页面。
页面1:“手机”“智能手机”“商务手机”“音乐手机”“拍照手机”
页面2:“手机”“手机”“手机”手机”“手机”“手机”
搜索引擎对页面1进行分词操作后,得到词汇:“手机”“智能”“手
机”“商务”“手机”“音乐”“手机”“拍照”“手机”,则页面1中主关键
字“手机”的关键字密度就是59,而词频是5。
而经过对页面2进行分词操作后,得词汇“手机”“手机”“手机”“手
机”“手机”。则主关键字“手机”的关键字密度是100%,而词频也是
5。
假设关键字密度在10%的时候,页面相关性最高。页面1显然比页
面2更接近这个值。
3. 增加相关的辅关键字还可以提高页面在其他关键字搜索结果中被检索
的几率。
例如,一个页面中存在主关键字“手机”及辅关键字“手机报价”“手机图
片”,那么用户除了可以在主关键字“手机“的搜索结果中发现该页面以
外,还有可能在“手机报价”“手机图片”等辅关键字的搜索结果中发现该
页面。
经过上面的介绍,相信读者对关键字词频及密度与页面相关性的关系已
经有了一定的了解。接下来介绍的是关键字的分布及表现形式与页面相
关性之间的关系。3.7 关键字分布及表现形式
搜索引擎对网页的分析是在网页的HTML源代码上进行的,网页的源代
码从一定程度上反映了搜索引擎分析网页内容的先后顺序。本节将结合
页面布局及HTML源代码对关键字的分布规律进行说明。
3.7.1 关键字分布
搜索引擎分析网页的时候,在HTML源代码中是自上而下地进行的。而
从页面布局的角度上看,则是自上而下、自左而右地进行的,这与用户
浏览网页的习惯也是相符合的。因此,搜索引擎会更加重视网页中首先
出现的内容,我们在规划页面时也应该把相对重要的内容安排在页面的
顶部。如图3-5所示,搜索引擎对页面的重视程度沿着箭头方向逐渐降
低。
图 3-5 用户浏览习惯
下面,我们再从文章写作的角度分析关键字的分布规律。在一篇文章
中,题目是最先出现的;然后就是文章的简述;再就是围绕文章主题而展开描述的内容;最后通常是对文章内容的总结。对于网页而言,网页
标题标签就是网页的“题目”;描述标签的内容则是文章的简述,网页正
文内容就是文章内容,网页最底部内容就是文章内容的总结。因此,页
面中的主辅关键字应该合理地分布在这些区域上。
1. 页面头部,主要包括标题、描述及关键字标签(简称TDK标签)。标
题内容在网页头部中是最先出现的,然后就是描述(这相当于文章的题
目与简述)及关键字标签的内容。所以,要让主关键字优先出现在标题
及描述内容的最前面(TDK优化请参考5.3节)。
如下面代码所示,主关键字“长沙激光治疗近视价格”在标题及描述内容
的最前面出现。
长沙激光治疗近视价格 – 康华眼科网
2. 网页正文。在网页正文中,相对重要的就是网页的最顶部及最底部,即接近 标签后及标签前的位置,如下所示。
顶部代码:
重值,即60。
表 2-2 样式标签与权重值的对应关系
标签名称 标签权重值
10
50
通过对关键字匹配度、关键字密度、关键字分布及权重标签进行说
明后,我们推算出页面相关性的计算公式如下:
W (relevance)=W (match)+W (density)+W (position)+W (tag)
式中,W (relevance)是页面相关性,W(match) 是关键字匹配
值,W(density) 是关键字密度值,W(position) 是关键字分布
值,W(tag) 是标签权重值。
例如,某页面的内容如下:搜索引擎优化
搜索引擎……,则针对“搜索引擎优
化”这个关键字来说,由于只出现一次,则关键字匹配
值W(match)=10;关键字密度是50%,则关键字密度
值W(density)=20;关键字出现在页面的顶部,则关键字分布
值W(position)=50;而权重标签在突出关键字“搜索引擎优化”时
出现了一次,则标签权重值W(tag)=10,即W(relevance)=10+20+50+10。
搜索引擎利用关键字匹配度、关键字密度、关键字分布及权重标签这四
大要素相互制约的作用,完善页面相关性的计算。但是,本节所介绍的
都是一些网站内部可操控因素。为了提高排序中信息的质量,搜索引擎
还引入了一些外部不可操控的因素对页面相关性进行综合评估,例如外
部链接与用户行为等。
2. 链接权重
链接主要分内部链接及外部链接两种,是网页制作或者编缉者在对页面内容进行规划或者编缉时加入到页面中的,加入的理由可能是该链接所
指向的页面非常重要或者是大部分用户所需要的。因此,某一页面得到
的链接越多,从一定程度上反映了该页面越重要,链接权重值就越高。
如果把整个互联网看作是一个有向图,超链接为有向边,网页为节点,那么,绝大部分网页都会有一个“入度”与“出度”,根据网页的入度数量
及提供入度的页面权重值来计算页面链接的权重是一个非常好的想法。
假设图2-14是页面之间的关系图,其中V1、V2、V3为网页;而箭头方
向则代表页面贡献链接或从其他页面中得到的链接。以网页V2为例,V2对V1、V3各贡献了一个链接,而得到了V1的链接。
图 2-14 页面关系图
内部链接
内部链接是指网站内部页面之间的链接关系,体现了网站内部对某
个页面的认可程度。理论上,页面获得的链接质量越高、数量越
多,其重要性也相对越大。
外部链接
外部链接指本站以外的页面之间的链接关系。由于外部链接的不可
操控性,外部链接在整个链接关系中占着更大的权重比例,是决定
整个页面权重最重要的因素。
默认权重分配
网站页面数量是在不断变化的,但由于时间的关系,新增加的页面即使内容质量很高,得到的链接数量也是有限的,因此链接权重值
通常会很低。在这种情况下,搜索引擎就需要对这些新页面的链接
权重值按照相应的方案进行补偿,使得新页面能够得到更合理的链
接权重值。
在链接权重值补偿方面,搜索引擎把页面被抓取的日期作为一个参
考因素。它认为页面在单位时间内获得链接的数量越多、质量越
高,则该页面的质量也相对更高。
例如,页面A得到30个链接,页面B也得到30个链接(假设这些链
接的质量是相等)。但是,页面A花了100天时间,而页面B只花了
1天时间。这从一定程度上反映页面B比页面A更重要。因此,就需
要给页面B进行一定的补偿,使得页面B所得链接权重值高于页面
A。
3. 用户行为
搜索引擎在完成页面基本权重计算以后,就可以向用户展示初步的排序
结果。但这个排序结果不一定能让大部分用户满意,因此还要结合其他
因素对该排序结果进行改进。例如,统计每条搜索结果的点击次数来推
测用户对搜索结果的偏好。
用户对搜索结果的点击行为是衡量页面相关性的因素之一,是完善排序
结果、提高排序结果质量的重要补充,属于外部不可操控因素(详细请
参考2.3.4节)。
综上所述,搜索引擎通过计算页面在页面相关性、链接权重值及用户行
为等方面的得分,得到页面的总权重值;然后,再按照页面的总权重值
从高到低进行排序并把这个经过排序的列表返回给用户。
即W(page)= W(relevance)+ W(link)+ W(user)
式中,W(page)是页面权重值,W (relevance) 是页面相关性值,W (link)
是链接权重值,W (user) 是用户行为得分。
2.3.4 关键字查询
在计算完所有页面的权重后,搜索引擎就可以向用户提供信息查询服务。搜索引擎查询功能的实现非常复杂,用户对返回结果的时间要求也
非常高(通常是秒级),要在这么短的时间内完成这么复杂的计算是不
现实的。所以,搜索引擎需要通过一套高效的机制处理来自用户的查
询。这主要应该包括:
在用户发出查询请求前就完成被查询关键字的反向索引、相关页面
权重计算等工作。
为那些查询最频繁的关键字对应的页面排序列表建立缓存机制。
其中,关键字重组、页面权重分配等工作已经在前面进行了详细的说
明。接下来,就介绍搜索引擎如何建立信息查询的缓存机制。
1. 查询流程
首先,向大家介绍搜索引擎处理用户查询的流程,如图2-15所示。
图 2-15 查询处理流程
1. 先对用户提供的查询条件进行切词,并删除查询条件中没有意义的字
或词,例如,“的”“得”等停用词。
2. 再以切词结果作为条件在关键字反向索引列表中进行匹配。
3. 如果存在匹配结果,则把所有与关键字相匹配的页面的URL组成一个
列表。4. 最后,把匹配的页面按照权重值从高到低进行排序,并返回给用户。
其中,3、4 两个步骤在用户查询之前已经完成。
例如,用户查询“手机图片”,搜索引擎对其进行切词后得到的查询条件
是“手机+图片”;再把“手机+图片”在关键字反向索引列表中进行匹配;
结果得到了A、B、C这三个相关页面;再计算三个页面的权重值,如果
这三个页面的权重值关系是B>C>A,则这三个页面在搜索结果列表中的
排列顺序就是B、C、A。
2. 用户行为
用户在搜索引擎中的行为主要包括搜索及点击,搜索是用户获取信息的
过程,点击是用户得到需要信息后的表现。
用户的搜索及点击行为中蕴含着非常丰富、重要的信息。例如,在用户
搜索行为中包含了提交的关键字、提交时间、用户IP地址等信息,而在
点击行为中则包含了每个结果的点击次数等信息。
搜索引擎通过对用户行为的分析可以进一步发掘用户的需求,提高搜索
结果的精准度。例如,从用户的搜索行为中,搜索引擎还可以发现新词
汇;而从用户对搜索结果的点击行为中,可以分析出用户对每个搜索结
果的偏好等。
搜索
搜索是用户获取信息的途径,是搜索引擎最基本的功能。搜索引擎
可以在用户的搜索行为中得知某一关键字被搜索的次数,通过对关
键字被搜索的次数的分析,可以发现新词汇,进一步了解用户搜索
习惯。
由于语言是不断发展的,随着时间的推移会产生更多的新词汇。特
别是在互联网环境中,某个热点的事件也有可能成为一个新的词
语,例如“艳照门”等。
对搜索引擎而言,新生词汇主要是指那些目前搜索引擎词典系统里
不存在、但是又被频繁搜索的关键字。如果某一关键字在搜索引擎
词典系统里不存在,则切词时就不会产生该关键字,这样用户在查询该关键字时就返回不了相关的信息,也就不能满足用户的需求。
因此,搜索引擎对新词汇的学习能力从一定程度上反映了搜索引擎
对语言的理解能力,是衡量搜索引擎好坏的重要指标之一。
结合用户搜索习惯与页面内容去发掘新关键字是搜索引擎学习新词
汇的主要方式之一,如图2-16所示。
图 2-16 新词汇识别流程
对用户查询日志进行分析,筛选出日志中查询相对频繁的词
汇。
如果某个查询相对频繁的关键字不存在于词典系统中,就把这
个关键字与部分页面的内容进行匹配;如果命中,则表明该关
键字是存在的,加入词典系统;否则,对下一个查询频繁词语
进行匹配。
点击
点击是用户找到所需信息后的表现,反映了用户对信息的关注。因
此,用户对链接的点击也是衡量页面相关性的一个因素,是衡量页
面相关性的一个重要补充。
在同一个关键字的搜索结果列表中,不同的用户会有不同的选择。
但是,如果某一个结果的点击次数明显多于其他结果,则从一定程
度上反映了该页面是大部分用户所需要的(特别是当该链接处在比
较靠后的位置时)。众所周知,搜索结果中越靠前的链接得到点击的几率就会越高。按
照这样的逻辑,那么在排在第二、第三甚至第四的页面被点击的机
会就会变得越来越小,但这并不代表这些页面就不比排在前面的页
面重要,只是在目前的排序结果中,用户还没机会发现它们而已。
所以,对于不同位置上链接的点击,搜索引擎会对其权重值进行相
应的补偿。假设排在第一位的结果每被点击一次会产生1分的补
偿,而排名在100名的结果被点击一次则会产生10分甚至更多的补
偿。
3. 缓存机制
为了能在极短的时间内响应用户的查询请求,搜索引擎除了在用户提交
查询信息前就生成关键字对应的页面排序列表以外,还需要为那些查询
最频繁的关键字对应的页面排序列表建立缓存机制。
经过统计,搜索引擎发现关键字查询的集中现象非常明显。查询次数最
多的前20%的关键字大约占了总查询次数的80%(即著名的8020法
则)。因此,只要我们对这20%左右的关键字建立缓存就可以满足80%
的查询需求。
由于用户查询时返回的信息主要是与关键字相关的页面排序列表,因此
关键字缓存机制的建立主要是针对与关键字相关的页面排序列表。在对
常用关键字的页面排序列表建立缓存后,搜索引擎就可以把缓存中的信
息返回给用户,这样速度就会非常快,也就能满足绝大部分用户的需
求。
由于互联网中的信息是时刻都在增长的,如果搜索引擎每次都向用户返
回同样的信息,那么不但用户得不到更高质量的信息,其他网站也不能
向用户展示最新的高质量信息,从而造成信息滞后。因此,搜索引擎还
会对缓存中的内容进行定期更新。2.4 搜索引擎特色算法
为了不断提高查询结果的效率与质量,搜索引擎会不断地对自身的算法
进行改进。在过去的几年里,主流搜索引擎(特别是Google)进行了数
次重要的算法升级。这里向大家介绍几个重要的算法,包括
TrustRank、BadRank及百度的绿萝算法。
2.4.1 TrustRank算法
TrustRank(信任指数),是基于网页与可信任网页之间的链接关系及
传播深度来计算网页间信任程度的算法,目的是从互联网中筛选出质量
相对较高的网页。
TrustRank算法认为,如果某网页与可信任网页之间存在链接关系,那
么链接深度越小,该网页的可信任指数就会越高,权重就会越大。通过
TrustRank算法,搜索引擎可以找到互联网中相对权威的网站或者网
页,如果进一步细分至不同行业,就可以挖掘出不同行业中的权威网站
或网页。TrustRank算法属于信任传播类模型,主要有两步工作流程。
1. 可信任网页集合筛选。TrustRank算法通过人工审核的方式来判断某
个网页是否属于可信任网页,从而将可信任网页加入到可信任网页集合
中(即网页白名单)。由于互联网上存在着海量的网页,因此需要通过
相应的算法进行预过滤,再对符合条件的网页进行人工筛选。
2. 网页信任值的传播计算。网页信任值的传播涉及两个方面的问题:一
是可信任网页外出链接数量,二是网页与可信任网页之间的链接深度。
可信任网页外出链接数量
一个可信任网页包含的外出链接数越多,被链接的网页得到的信任
值就会越小,反之亦然。假设某个可信任网页的信任值是100,它
存在10个外出链接,如果被指向的网页对信任值进行平均分配,则
每个网页的信任值就是10。
网页与可信任网页的链接深度TrustRank算法除了计算存在直接链接关系的网页外,还会计算存
在间接链接关系的网页。间接链接关系可参考图2-17,A是可信任
网页,A与B存在直接链接关系,B与C存在直接链接关系,那么C
与A之间就是间接的链接关系。
图 2-17 网页间的链接关系
网页与可信任网页之间的链接距离越大,可信任度就越小。通过以
上两种策略计算出某网页的可信任指数,可信任指数越低,该网页
的可靠性就越差,权重就越低。
2.4.2 BadRank算法
BadRank算法基于一个这样的假设:如果某个网页与一个不可信任或具
有作弊行为的网页之间存在链接关系,那么该网页也有可能存在作弊行
为。与TrustRank算法刚好相反,BadRank算法最主要的目的是从互联网
中筛选出质量低下的网页。
BadRand算法与TrustRank算法的工作原理极为相似,首先是确定一批不
可信任网页集合(即网页黑名单),再通过网页与不可信任网页间的链
接关系及链接距离计算出网页的不信任值,从而确定某个网页是否为不
可信任网页。
2.4.3 百度绿萝算法
百度绿萝算法是针对垃圾链接发布的,截至本书定稿时共发布了两个版
本,即百度绿萝算法1.0及2.0。
百度官方于2013年2月19日发布了绿萝算法1.0版本,主要针对超链中
介、出卖链接网站及购买链接网站,是首次明确禁止链接买卖行为。
2013年7月1日,百度官方发布了绿萝算法2.0版本,这次主要是针对软
文发布平台,包括软文发布网站及软文受益网站。
这两次算法更新影响到了国内大部分网站。如果你的网站存在百度绿萝
算法禁止的行为,建议你采取以下措施。停止买卖链接的行为,不管是文本链接的购买还是软文链接。
清理已经购买的文本链接。
利用百度管理员工具的拒绝外链管理功能对以前发布软文的站点进
行链接拒绝。
停止发外链行为,包括论坛、博客等。2.5 搜索引擎介绍
搜索引擎优化的一个主要任务是提高网站的搜索引擎友好性,因此学习
搜索引擎优化还需要熟悉各主要搜索引擎的习性。下面将介绍四类主流
搜索引擎:Google、百度、搜狗及360搜索。
2.5.1 Google
Google是基于全文索引的搜索引擎,源于斯坦福大学的BackRub项目,由Larry Page及Sergey Brin 主要负责。1998年,BackRub更名为Google,并成立公司。发展至今,Google搜索涉及全球多种语言,是目前最有影
响力的搜索引擎,如图2-18所示。
图 2-18 Google中文首页
2010年3月,由于众所周知的原因,Google宣布退出中国市场,其在中国大陆的市场份额已经
所剩无几,均被其他搜索引擎瓜分,其中最大的得益者非百度莫属。
Google是目前世界上最大的搜索引擎,先进的算法被争相模仿。因此,加深对Google的了解可以帮助我们更好地认识其他搜索引擎。
6
6在搜索引擎优化方面,我认为Google与其他搜索引擎主要存在以下明显
的区别。
Google十分重视链接关系,对于链接的质量、数量及相关性方面的
分析技术在业界更是遥遥领先。尽管百度、搜狗及必应也非常重视
链接关系,但对于链接的质量及相关性方面的分析远不如Google。
在切词算法上,Google与其他中文搜索引擎也存在一定的区别。
在对待新网站方面,Google非常严格,新网站只有同时满足多个条
件时,才能正常参与排名竞争,这就是所谓的“沙盒效应”。这样做
可以有效避免垃圾网站,但同时也给一些新的优秀的网站诸多制
肘,很难通过Google向用户展示其极具价值的信息。
在对垃圾信息处理方面,尽管Google目前还是以人工为主,但与其
他搜索引擎相比,Google Spam检测算法已经比较成熟。对于一些
常见的作弊手段,例如伪装(cloaking)、门页(doorway page)、堆砌关键字、隐藏文字、垃圾链接等,Google可以轻易识别。
2.5.2 百度
作为中文搜索引擎的统治者,也许百度的技术不如Google。但是,百度
在中国大陆的市场占有率方面远比Google大得多 。因此,加深对百度
的认识也是非常必要的。百度首页如图2-19所示。
自Google退出中国市场,百度在中国大陆的搜索市场份额就一路飙升,最高时号称占领中国
大陆79%的搜索市场份额,直至360及搜狗的发力才有所回落。
7
7图 2-19 百度首页
如果把决定页面权重的因素分内部因素与外部因素两大类,在百度
中,内部因素与外部因素在影响页面权重方面的差距比较小。
百度对新网站比较宽松,这就造成了搜索结果中充斥着大量的垃圾
信息,严重影响了用户体验。
百度也非常重视链接关系,对于被高质量页面链接的页面会赋予极
高的权重,但不太重视链接关系中网站间的主题相关性。
百度对搜索结果的人工干预非常强。
2.5.3 搜狗
搜狗是搜狐公司于2004年推出的互动式搜索引擎,经历了将近10年的发
展,搜狗的检索技术不断地成熟,在中文搜索引擎中也占有一席之地。
特别是在2013年宣布与腾讯搜搜合并后,其覆盖人群进一步扩大,成为
中文搜索引擎的一支后起之秀,号称市场占有率达12%。图2-20为搜狗
首页。图 2-20 搜狗首页
2.5.4 360搜索
360于2013年8月推出了自有搜索引擎360搜索,凭借巨大的浏览器安装
率,360搜索自上线之日起即获得相当可观的市场占有率。半年内更是
攻城掠地,不仅将原Google的市场份额洗劫一空,更是不断深入百度及
搜狗的腹地,成为中国大陆不可小视的力量,更让百度寝食难安。图2-
21为360搜索首页。图 2-21 360搜索
不管是百度、搜狗还是360,他们在搜索方面的技术都存在很多相似之
处,我们不太可能分别针对三大不同的搜索引擎来优化我们的网站。我
的原则是在满足百度的基础之上,兼顾其他的搜索引擎。
了解搜索引擎的工作原理是开展搜索引擎优化工作的基础。只有充分掌
握搜索引擎工作的流程及原理,我们才能更好地规划网站,提高网站的
搜索引擎友好性。第 3 章 关键字
要对网站进行优化,首先需要为网站中的页面选择合适的关键字,然后,围绕突出关键字、提高页面相关性开展一系列的工作,从而
提高页面在相应关键字搜索结果中的排名。本章将在关键字策略一
节中介绍如何寻找及筛选关键字;而对于突出关键字、提高页面相
关性则分别在关键字词频、关键字密度、辅关键字及关键字分布中
进行说明。
本章内容
关键字简介
关键字词频
关键字密度
关键字词频与密度的关系
主关键字
辅关键字
关键字分布及表现形式
关键字策略3.1 关键字简介
关键字(keyword)在不同的领域有不同的含义。在搜索引擎中,关键
字是指用户在寻找相关内容时所使用的信息,是搜索应用的基础,也是
搜索引擎优化的基础。搜索引擎优化的作用之一就是提高页面与某个关
键字之间的相关性,要了解关键字与页面相关性的关系,我们要从认识
关键字词频及关键字密度开始。3.2 关键字词频
关键字词频是指某个关键字在页面中出现的频率,也即关键字在页面中
出现的次数,从一定程度上反映了页面与该关键字之间的相关性。
在搜索引擎发展初期,搜索结果中页面的排序基本是由关键字词频所决
定的。也就是说,页面中某个关键字出现的次数越多,说明该页面与此
关键字间的相关性就越高,因此,在这个关键字的搜索结果中排名就越
靠前。这种单纯以词频决定排序的方式,极容易被恶意操纵,从而影响
搜索引擎的用户体验。因此,搜索引擎逐渐引进了诸如关键字密度、关
键字分布、链接锚文本、外部链接数量、外部链接质量及外部链接相关
性等因素进行制约。3.3 关键字密度
在实际中,常用关键字密度来衡量页面中关键字的词频是否合理。关键
字密度主要由关键字词频及总词汇量两个因素决定,这三者之间的关系
如下:
关键字密度=关键字词频总词汇量
式中,总词汇量是指页面程序标签(如HTML标签及ASP、JSP、PHP
等)以外的词汇的数量。
以下对关键字密度的理解是不正确的:关键字密度=关键字总字节数
页面总字节数。
目前很多所谓的中文关键字密度工具都是按照这样的方法计算关键字密
度的。例如,对于中文关键字“手机”,在页面中出现了1次,如果页面
大小是1KB,则“手机”的关键字密度就是41024(1个中文字符=2字节,1个英文字符=1字节)。这样的统计结果是错误的。
了解关键字密度,要先认识搜索引擎对页面的分词。本书将从中英文这
两种我们平常接触得最多的语言出发介绍关键字密度。
3.3.1 英文关键字密度
要了解英文关键字密度,关键是要认识在英文语言环境中,搜索引擎是
怎样对页面进行分词的。
1. 分词
分词又称为切词,是指把网页中的正文内容 划分为若干个具有实际意
义的词汇(参见2.3.2节)。
网页正文内容是指去掉网页中程序标签(如HTML标签、JSP等)以外的内容。
2. 英文分词
在英文书面表达里,空格是单词之间的自然分隔符,而句点就是一个句
1
1子或者段落结束的标记。根据这个特征,搜索引擎就可以轻易地对网页
正文内容进行准确的划分。
如图3-1所示,camcorder battery之间的空格就单词camcorder与单词
battery间的分隔符;而句点“.”则是该句子结束的标记。
图 3-1 英文句子
3. 英文关键字密度
在英文中,同一单词的不同形式会被认为是两个不同的单词(大小写除
外)。例如,battery与其复数形式batteries,就会被认为是两个不同的单
词。在图3-1的句子中,battery与batteries各在页面中出现了1次,则
battery与batteries的关键字密度都是117。
而对于英文词组,在衡量这个英文词组的关键字密度是否合理时,除了
计算这个英文词组的关键字密度以外,还要计算组成英文词组里的每一
个单词的密度。例如,在图3-1中,对于词组关键字camcorder battery,除了要统计camcorder battery这个词组的关键字密度以外,还要统计
camcorder battery中的camcorder与battery的关键字密度。即camcorder
battery在页面中出现了一次,它的关键字密度 就是116 ,而 camcorder
与battery都只出现了一次,则它们的关键字密度都为117。
由于camcorder battery被看作一个整体,所以,网页中的词汇量只有16。
通过手工的方式去统计页面中的关键字密度显然是不可行的。下面,向
大家介绍一个计算英文页面中关键字密度的工具—关键字密度检查器。
4. 英文关键字密度工具
关键字密度检查器(工具地址:http:www.webconfs.comkeyword-
density-checker.php)只适用于英文网站,这个工具通过统计页面中每一
个单词出现的次数,计算出每个单词占页面总单词量的比例,如图3-2
2
2所示。
图 3-2 关键字密度检查器界面
我们只需要在文本框中输入要查询的页面URL即可,例如输
入http:www.pcb-prototype.net,点击submit即可查询该页面中关键字的
密度,如图3-3所示。
图 3-3 页面中部分关键字的密度
3.3.2 中文关键字密度
1. 中文分词
在中文里,字或者词之间并不存在自然分隔符,而且中文里的词通常由
两个或两个以上的中文字符组成。因此,搜索引擎不能借助分隔符对页
面的正文内容进行分词,而是基于自有词典,再结合某种算法对页面正文内容进行分词(请参考2.3.2节)。
2. 中文关键字密度
为了让读者可以更加容易理解中文关键字密度 ,下面举一个简单的例
子进行说明。例如,网页内容为“我的笔记本”,基于现有的词典,搜索
引擎将其分为“我”“的”“笔记本”,则关键字“笔记本”在这个网页中的密
度就是13。
由于中文存在分词问题,目前还没有工具可以准确地统计中文关键字密度。
对于短语关键字,在衡量这个短语的关键字密度是否合理时,除了计算
这个短语的关键字密度,还要计算组成短语里的每个词的密度。例
如,“智能手机走进大众市场”切分为“智能”“手机”“走进”“大众”“市
场”。短语关键字“智能手机”的关键字密度是14 ,而“智能手机”中
的“智能”及“手机”各出现了一次,它们的关键字密度都是15。
由于“智能手机”被看作是一个整体,所以,网页中的词汇量只有4。
3.3.3 关键字密度范围
通过以上内容,我们知道了搜索引擎对页面的分词方法,以及如何计算
中英文页面中的关键字密度。然而,网页中关键字的密度在什么范围内
才被认为是与某关键字高相关的?具体我们无从得知。通常,搜索引擎
会对若干样本数据进行综合分析,最终确定关键字密度值在哪个范围内
页面相关性更高,再以此值来衡量待分析网页中的关键字密度是否合
理。
关键字密度的范围在不同的搜索引擎中会有所差别。基于长期的英文网
站优化经验,一般认为,关键字密度在6%~10% 是比较合理的。
此值仅是基于经验总结出来,主观性较强,而且目前并没有中文关键字密度分析工具,因此
对于中文网页意义不大。
3.3.4 关键字密度与页面相关性
关键字密度是衡量页面相关性的重要指标之一。搜索引擎会根据页面中
每个关键字的密度对页面的主题进行定位。也就是说,如果我们的页面
3
3
4
4
5
5要出现在某个关键字K的搜索结果中,最基本的是页面中K的关键字密
度要在某个特定的范围以内(如6%~10%)。
例如,要想让网站中的某个页面出现在“手机”的搜索结果中,则首要条
件就是该页面上“手机”这个词的关键字密度要在某一个特定的范围内。
否则,就会被排除在“手机”的搜索结果以外。3.4 关键字词频与密度的关系
尽管关键字密度与关键字词频都是表达页面中某个关键字的多寡,但是
两者的含义却存在很大差别。关键字词频表达的是关键字出现的次数,而关键字密度表达的是该关键字的词频与页面总词汇量的比例。两者的
关系如下。
关键字密度是衡量页面中关键字词频是否合理的重要指标。
当两个页面词汇量相等时,关键字密度越大,词频就越大;反之亦
然。但是,不管是关键字密度还是词频,都不是越大越好,而是有
一个阈值。关键字密度达到某个阈值时,页面相关性最高,当高于
或者低于这个阈值时,页面相关性就会出现递减。如图3-4所示。
图 3-4 关键字密度与页面相关性的关系3.5 主关键字
主关键字是指表达页面主题的关键字,而非意义最广泛的关键字。例
如,一个页面的主题是“手机铃声下载”,那么这个页面的主关键字就
是“手机铃声下载”,而非“手机铃声”或者“手机”。3.6 辅关键字
由于一个关键字会存在多种不同的表达或者描述方式,从而产生了所谓
的辅关键字。例如,英文的单复数或词组,中文的结构短语(如形容词
+名词),等等。
3.6.1 辅关键字简介
辅关键字是指对主关键字进行相应的增加或删除以后产生的、对主关键
字的意义在程度或者范围上起到扩大或者缩小作用的关键字。
在英文语言环境里,我们除了可以使用主关键字与其他单词或词组
组合后产生的新词组作为辅关键字以外,还可以选择主关键字的单
复数等形式作为辅关键字。例如,battery与另外一个单词camcorder
组合后产生的词组camcorder battery是一个辅关键字;而复数形式
batteries也是主关键字battery的一个辅关键字。
在中文语言环境中,我们也是通过对主关键字进行相应增加或删除
的方法得到辅关键字。例如,主关键字“手机”与“智能”这个词组合
后,就产生一个新的辅关键字“智能手机”。
3.6.2 辅关键字作用
在页面中,辅关键字可以有效增加主关键字的词频,突出页面的主题。
此外,辅关键字的存在还会提高页面被检索的几率,从而增加网站的流
量。
1. 在内容方面,辅关键字是主关键字的一个重要的说明及补充。
例如,有两个网站,包含以下栏目。
甲网站:“手机”“诺基亚”“三星”“摩托罗拉”“多普达”
乙网站:“手机”“智能手机”“拍照手机”“音乐手机”“娱乐手机”
乙网站中的辅关键字“智能手机”“拍照手机”“音乐手机”“娱乐手机”就可以对主关键字“手机”进行重要的补充,提高页面相关性。
2. 利用辅关键字可以有效增加主关键字的词频,控制关键字密度,避免
为了提高主关键字词频而陷入堆砌关键字的误区。
例如,有两个内容如下的页面。
页面1:“手机”“智能手机”“商务手机”“音乐手机”“拍照手机”
页面2:“手机”“手机”“手机”手机”“手机”“手机”
搜索引擎对页面1进行分词操作后,得到词汇:“手机”“智能”“手
机”“商务”“手机”“音乐”“手机”“拍照”“手机”,则页面1中主关键
字“手机”的关键字密度就是59,而词频是5。
而经过对页面2进行分词操作后,得词汇“手机”“手机”“手机”“手
机”“手机”。则主关键字“手机”的关键字密度是100%,而词频也是
5。
假设关键字密度在10%的时候,页面相关性最高。页面1显然比页
面2更接近这个值。
3. 增加相关的辅关键字还可以提高页面在其他关键字搜索结果中被检索
的几率。
例如,一个页面中存在主关键字“手机”及辅关键字“手机报价”“手机图
片”,那么用户除了可以在主关键字“手机“的搜索结果中发现该页面以
外,还有可能在“手机报价”“手机图片”等辅关键字的搜索结果中发现该
页面。
经过上面的介绍,相信读者对关键字词频及密度与页面相关性的关系已
经有了一定的了解。接下来介绍的是关键字的分布及表现形式与页面相
关性之间的关系。3.7 关键字分布及表现形式
搜索引擎对网页的分析是在网页的HTML源代码上进行的,网页的源代
码从一定程度上反映了搜索引擎分析网页内容的先后顺序。本节将结合
页面布局及HTML源代码对关键字的分布规律进行说明。
3.7.1 关键字分布
搜索引擎分析网页的时候,在HTML源代码中是自上而下地进行的。而
从页面布局的角度上看,则是自上而下、自左而右地进行的,这与用户
浏览网页的习惯也是相符合的。因此,搜索引擎会更加重视网页中首先
出现的内容,我们在规划页面时也应该把相对重要的内容安排在页面的
顶部。如图3-5所示,搜索引擎对页面的重视程度沿着箭头方向逐渐降
低。
图 3-5 用户浏览习惯
下面,我们再从文章写作的角度分析关键字的分布规律。在一篇文章
中,题目是最先出现的;然后就是文章的简述;再就是围绕文章主题而展开描述的内容;最后通常是对文章内容的总结。对于网页而言,网页
标题标签就是网页的“题目”;描述标签的内容则是文章的简述,网页正
文内容就是文章内容,网页最底部内容就是文章内容的总结。因此,页
面中的主辅关键字应该合理地分布在这些区域上。
1. 页面头部,主要包括标题、描述及关键字标签(简称TDK标签)。标
题内容在网页头部中是最先出现的,然后就是描述(这相当于文章的题
目与简述)及关键字标签的内容。所以,要让主关键字优先出现在标题
及描述内容的最前面(TDK优化请参考5.3节)。
如下面代码所示,主关键字“长沙激光治疗近视价格”在标题及描述内容
的最前面出现。
长沙激光治疗近视价格 – 康华眼科网
2. 网页正文。在网页正文中,相对重要的就是网页的最顶部及最底部,即接近 标签后及标签前的位置,如下所示。
顶部代码:
……,则针对“搜索引擎优
化”这个关键字来说,由于只出现一次,则关键字匹配
值W(match)=10;关键字密度是50%,则关键字密度
值W(density)=20;关键字出现在页面的顶部,则关键字分布
值W(position)=50;而权重标签在突出关键字“搜索引擎优化”时
出现了一次,则标签权重值W(tag)=10,即W(relevance)=10+20+50+10。
搜索引擎利用关键字匹配度、关键字密度、关键字分布及权重标签这四
大要素相互制约的作用,完善页面相关性的计算。但是,本节所介绍的
都是一些网站内部可操控因素。为了提高排序中信息的质量,搜索引擎
还引入了一些外部不可操控的因素对页面相关性进行综合评估,例如外
部链接与用户行为等。
2. 链接权重
链接主要分内部链接及外部链接两种,是网页制作或者编缉者在对页面内容进行规划或者编缉时加入到页面中的,加入的理由可能是该链接所
指向的页面非常重要或者是大部分用户所需要的。因此,某一页面得到
的链接越多,从一定程度上反映了该页面越重要,链接权重值就越高。
如果把整个互联网看作是一个有向图,超链接为有向边,网页为节点,那么,绝大部分网页都会有一个“入度”与“出度”,根据网页的入度数量
及提供入度的页面权重值来计算页面链接的权重是一个非常好的想法。
假设图2-14是页面之间的关系图,其中V1、V2、V3为网页;而箭头方
向则代表页面贡献链接或从其他页面中得到的链接。以网页V2为例,V2对V1、V3各贡献了一个链接,而得到了V1的链接。
图 2-14 页面关系图
内部链接
内部链接是指网站内部页面之间的链接关系,体现了网站内部对某
个页面的认可程度。理论上,页面获得的链接质量越高、数量越
多,其重要性也相对越大。
外部链接
外部链接指本站以外的页面之间的链接关系。由于外部链接的不可
操控性,外部链接在整个链接关系中占着更大的权重比例,是决定
整个页面权重最重要的因素。
默认权重分配
网站页面数量是在不断变化的,但由于时间的关系,新增加的页面即使内容质量很高,得到的链接数量也是有限的,因此链接权重值
通常会很低。在这种情况下,搜索引擎就需要对这些新页面的链接
权重值按照相应的方案进行补偿,使得新页面能够得到更合理的链
接权重值。
在链接权重值补偿方面,搜索引擎把页面被抓取的日期作为一个参
考因素。它认为页面在单位时间内获得链接的数量越多、质量越
高,则该页面的质量也相对更高。
例如,页面A得到30个链接,页面B也得到30个链接(假设这些链
接的质量是相等)。但是,页面A花了100天时间,而页面B只花了
1天时间。这从一定程度上反映页面B比页面A更重要。因此,就需
要给页面B进行一定的补偿,使得页面B所得链接权重值高于页面
A。
3. 用户行为
搜索引擎在完成页面基本权重计算以后,就可以向用户展示初步的排序
结果。但这个排序结果不一定能让大部分用户满意,因此还要结合其他
因素对该排序结果进行改进。例如,统计每条搜索结果的点击次数来推
测用户对搜索结果的偏好。
用户对搜索结果的点击行为是衡量页面相关性的因素之一,是完善排序
结果、提高排序结果质量的重要补充,属于外部不可操控因素(详细请
参考2.3.4节)。
综上所述,搜索引擎通过计算页面在页面相关性、链接权重值及用户行
为等方面的得分,得到页面的总权重值;然后,再按照页面的总权重值
从高到低进行排序并把这个经过排序的列表返回给用户。
即W(page)= W(relevance)+ W(link)+ W(user)
式中,W(page)是页面权重值,W (relevance) 是页面相关性值,W (link)
是链接权重值,W (user) 是用户行为得分。
2.3.4 关键字查询
在计算完所有页面的权重后,搜索引擎就可以向用户提供信息查询服务。搜索引擎查询功能的实现非常复杂,用户对返回结果的时间要求也
非常高(通常是秒级),要在这么短的时间内完成这么复杂的计算是不
现实的。所以,搜索引擎需要通过一套高效的机制处理来自用户的查
询。这主要应该包括:
在用户发出查询请求前就完成被查询关键字的反向索引、相关页面
权重计算等工作。
为那些查询最频繁的关键字对应的页面排序列表建立缓存机制。
其中,关键字重组、页面权重分配等工作已经在前面进行了详细的说
明。接下来,就介绍搜索引擎如何建立信息查询的缓存机制。
1. 查询流程
首先,向大家介绍搜索引擎处理用户查询的流程,如图2-15所示。
图 2-15 查询处理流程
1. 先对用户提供的查询条件进行切词,并删除查询条件中没有意义的字
或词,例如,“的”“得”等停用词。
2. 再以切词结果作为条件在关键字反向索引列表中进行匹配。
3. 如果存在匹配结果,则把所有与关键字相匹配的页面的URL组成一个
列表。4. 最后,把匹配的页面按照权重值从高到低进行排序,并返回给用户。
其中,3、4 两个步骤在用户查询之前已经完成。
例如,用户查询“手机图片”,搜索引擎对其进行切词后得到的查询条件
是“手机+图片”;再把“手机+图片”在关键字反向索引列表中进行匹配;
结果得到了A、B、C这三个相关页面;再计算三个页面的权重值,如果
这三个页面的权重值关系是B>C>A,则这三个页面在搜索结果列表中的
排列顺序就是B、C、A。
2. 用户行为
用户在搜索引擎中的行为主要包括搜索及点击,搜索是用户获取信息的
过程,点击是用户得到需要信息后的表现。
用户的搜索及点击行为中蕴含着非常丰富、重要的信息。例如,在用户
搜索行为中包含了提交的关键字、提交时间、用户IP地址等信息,而在
点击行为中则包含了每个结果的点击次数等信息。
搜索引擎通过对用户行为的分析可以进一步发掘用户的需求,提高搜索
结果的精准度。例如,从用户的搜索行为中,搜索引擎还可以发现新词
汇;而从用户对搜索结果的点击行为中,可以分析出用户对每个搜索结
果的偏好等。
搜索
搜索是用户获取信息的途径,是搜索引擎最基本的功能。搜索引擎
可以在用户的搜索行为中得知某一关键字被搜索的次数,通过对关
键字被搜索的次数的分析,可以发现新词汇,进一步了解用户搜索
习惯。
由于语言是不断发展的,随着时间的推移会产生更多的新词汇。特
别是在互联网环境中,某个热点的事件也有可能成为一个新的词
语,例如“艳照门”等。
对搜索引擎而言,新生词汇主要是指那些目前搜索引擎词典系统里
不存在、但是又被频繁搜索的关键字。如果某一关键字在搜索引擎
词典系统里不存在,则切词时就不会产生该关键字,这样用户在查询该关键字时就返回不了相关的信息,也就不能满足用户的需求。
因此,搜索引擎对新词汇的学习能力从一定程度上反映了搜索引擎
对语言的理解能力,是衡量搜索引擎好坏的重要指标之一。
结合用户搜索习惯与页面内容去发掘新关键字是搜索引擎学习新词
汇的主要方式之一,如图2-16所示。
图 2-16 新词汇识别流程
对用户查询日志进行分析,筛选出日志中查询相对频繁的词
汇。
如果某个查询相对频繁的关键字不存在于词典系统中,就把这
个关键字与部分页面的内容进行匹配;如果命中,则表明该关
键字是存在的,加入词典系统;否则,对下一个查询频繁词语
进行匹配。
点击
点击是用户找到所需信息后的表现,反映了用户对信息的关注。因
此,用户对链接的点击也是衡量页面相关性的一个因素,是衡量页
面相关性的一个重要补充。
在同一个关键字的搜索结果列表中,不同的用户会有不同的选择。
但是,如果某一个结果的点击次数明显多于其他结果,则从一定程
度上反映了该页面是大部分用户所需要的(特别是当该链接处在比
较靠后的位置时)。众所周知,搜索结果中越靠前的链接得到点击的几率就会越高。按
照这样的逻辑,那么在排在第二、第三甚至第四的页面被点击的机
会就会变得越来越小,但这并不代表这些页面就不比排在前面的页
面重要,只是在目前的排序结果中,用户还没机会发现它们而已。
所以,对于不同位置上链接的点击,搜索引擎会对其权重值进行相
应的补偿。假设排在第一位的结果每被点击一次会产生1分的补
偿,而排名在100名的结果被点击一次则会产生10分甚至更多的补
偿。
3. 缓存机制
为了能在极短的时间内响应用户的查询请求,搜索引擎除了在用户提交
查询信息前就生成关键字对应的页面排序列表以外,还需要为那些查询
最频繁的关键字对应的页面排序列表建立缓存机制。
经过统计,搜索引擎发现关键字查询的集中现象非常明显。查询次数最
多的前20%的关键字大约占了总查询次数的80%(即著名的8020法
则)。因此,只要我们对这20%左右的关键字建立缓存就可以满足80%
的查询需求。
由于用户查询时返回的信息主要是与关键字相关的页面排序列表,因此
关键字缓存机制的建立主要是针对与关键字相关的页面排序列表。在对
常用关键字的页面排序列表建立缓存后,搜索引擎就可以把缓存中的信
息返回给用户,这样速度就会非常快,也就能满足绝大部分用户的需
求。
由于互联网中的信息是时刻都在增长的,如果搜索引擎每次都向用户返
回同样的信息,那么不但用户得不到更高质量的信息,其他网站也不能
向用户展示最新的高质量信息,从而造成信息滞后。因此,搜索引擎还
会对缓存中的内容进行定期更新。2.4 搜索引擎特色算法
为了不断提高查询结果的效率与质量,搜索引擎会不断地对自身的算法
进行改进。在过去的几年里,主流搜索引擎(特别是Google)进行了数
次重要的算法升级。这里向大家介绍几个重要的算法,包括
TrustRank、BadRank及百度的绿萝算法。
2.4.1 TrustRank算法
TrustRank(信任指数),是基于网页与可信任网页之间的链接关系及
传播深度来计算网页间信任程度的算法,目的是从互联网中筛选出质量
相对较高的网页。
TrustRank算法认为,如果某网页与可信任网页之间存在链接关系,那
么链接深度越小,该网页的可信任指数就会越高,权重就会越大。通过
TrustRank算法,搜索引擎可以找到互联网中相对权威的网站或者网
页,如果进一步细分至不同行业,就可以挖掘出不同行业中的权威网站
或网页。TrustRank算法属于信任传播类模型,主要有两步工作流程。
1. 可信任网页集合筛选。TrustRank算法通过人工审核的方式来判断某
个网页是否属于可信任网页,从而将可信任网页加入到可信任网页集合
中(即网页白名单)。由于互联网上存在着海量的网页,因此需要通过
相应的算法进行预过滤,再对符合条件的网页进行人工筛选。
2. 网页信任值的传播计算。网页信任值的传播涉及两个方面的问题:一
是可信任网页外出链接数量,二是网页与可信任网页之间的链接深度。
可信任网页外出链接数量
一个可信任网页包含的外出链接数越多,被链接的网页得到的信任
值就会越小,反之亦然。假设某个可信任网页的信任值是100,它
存在10个外出链接,如果被指向的网页对信任值进行平均分配,则
每个网页的信任值就是10。
网页与可信任网页的链接深度TrustRank算法除了计算存在直接链接关系的网页外,还会计算存
在间接链接关系的网页。间接链接关系可参考图2-17,A是可信任
网页,A与B存在直接链接关系,B与C存在直接链接关系,那么C
与A之间就是间接的链接关系。
图 2-17 网页间的链接关系
网页与可信任网页之间的链接距离越大,可信任度就越小。通过以
上两种策略计算出某网页的可信任指数,可信任指数越低,该网页
的可靠性就越差,权重就越低。
2.4.2 BadRank算法
BadRank算法基于一个这样的假设:如果某个网页与一个不可信任或具
有作弊行为的网页之间存在链接关系,那么该网页也有可能存在作弊行
为。与TrustRank算法刚好相反,BadRank算法最主要的目的是从互联网
中筛选出质量低下的网页。
BadRand算法与TrustRank算法的工作原理极为相似,首先是确定一批不
可信任网页集合(即网页黑名单),再通过网页与不可信任网页间的链
接关系及链接距离计算出网页的不信任值,从而确定某个网页是否为不
可信任网页。
2.4.3 百度绿萝算法
百度绿萝算法是针对垃圾链接发布的,截至本书定稿时共发布了两个版
本,即百度绿萝算法1.0及2.0。
百度官方于2013年2月19日发布了绿萝算法1.0版本,主要针对超链中
介、出卖链接网站及购买链接网站,是首次明确禁止链接买卖行为。
2013年7月1日,百度官方发布了绿萝算法2.0版本,这次主要是针对软
文发布平台,包括软文发布网站及软文受益网站。
这两次算法更新影响到了国内大部分网站。如果你的网站存在百度绿萝
算法禁止的行为,建议你采取以下措施。停止买卖链接的行为,不管是文本链接的购买还是软文链接。
清理已经购买的文本链接。
利用百度管理员工具的拒绝外链管理功能对以前发布软文的站点进
行链接拒绝。
停止发外链行为,包括论坛、博客等。2.5 搜索引擎介绍
搜索引擎优化的一个主要任务是提高网站的搜索引擎友好性,因此学习
搜索引擎优化还需要熟悉各主要搜索引擎的习性。下面将介绍四类主流
搜索引擎:Google、百度、搜狗及360搜索。
2.5.1 Google
Google是基于全文索引的搜索引擎,源于斯坦福大学的BackRub项目,由Larry Page及Sergey Brin 主要负责。1998年,BackRub更名为Google,并成立公司。发展至今,Google搜索涉及全球多种语言,是目前最有影
响力的搜索引擎,如图2-18所示。
图 2-18 Google中文首页
2010年3月,由于众所周知的原因,Google宣布退出中国市场,其在中国大陆的市场份额已经
所剩无几,均被其他搜索引擎瓜分,其中最大的得益者非百度莫属。
Google是目前世界上最大的搜索引擎,先进的算法被争相模仿。因此,加深对Google的了解可以帮助我们更好地认识其他搜索引擎。
6
6在搜索引擎优化方面,我认为Google与其他搜索引擎主要存在以下明显
的区别。
Google十分重视链接关系,对于链接的质量、数量及相关性方面的
分析技术在业界更是遥遥领先。尽管百度、搜狗及必应也非常重视
链接关系,但对于链接的质量及相关性方面的分析远不如Google。
在切词算法上,Google与其他中文搜索引擎也存在一定的区别。
在对待新网站方面,Google非常严格,新网站只有同时满足多个条
件时,才能正常参与排名竞争,这就是所谓的“沙盒效应”。这样做
可以有效避免垃圾网站,但同时也给一些新的优秀的网站诸多制
肘,很难通过Google向用户展示其极具价值的信息。
在对垃圾信息处理方面,尽管Google目前还是以人工为主,但与其
他搜索引擎相比,Google Spam检测算法已经比较成熟。对于一些
常见的作弊手段,例如伪装(cloaking)、门页(doorway page)、堆砌关键字、隐藏文字、垃圾链接等,Google可以轻易识别。
2.5.2 百度
作为中文搜索引擎的统治者,也许百度的技术不如Google。但是,百度
在中国大陆的市场占有率方面远比Google大得多 。因此,加深对百度
的认识也是非常必要的。百度首页如图2-19所示。
自Google退出中国市场,百度在中国大陆的搜索市场份额就一路飙升,最高时号称占领中国
大陆79%的搜索市场份额,直至360及搜狗的发力才有所回落。
7
7图 2-19 百度首页
如果把决定页面权重的因素分内部因素与外部因素两大类,在百度
中,内部因素与外部因素在影响页面权重方面的差距比较小。
百度对新网站比较宽松,这就造成了搜索结果中充斥着大量的垃圾
信息,严重影响了用户体验。
百度也非常重视链接关系,对于被高质量页面链接的页面会赋予极
高的权重,但不太重视链接关系中网站间的主题相关性。
百度对搜索结果的人工干预非常强。
2.5.3 搜狗
搜狗是搜狐公司于2004年推出的互动式搜索引擎,经历了将近10年的发
展,搜狗的检索技术不断地成熟,在中文搜索引擎中也占有一席之地。
特别是在2013年宣布与腾讯搜搜合并后,其覆盖人群进一步扩大,成为
中文搜索引擎的一支后起之秀,号称市场占有率达12%。图2-20为搜狗
首页。图 2-20 搜狗首页
2.5.4 360搜索
360于2013年8月推出了自有搜索引擎360搜索,凭借巨大的浏览器安装
率,360搜索自上线之日起即获得相当可观的市场占有率。半年内更是
攻城掠地,不仅将原Google的市场份额洗劫一空,更是不断深入百度及
搜狗的腹地,成为中国大陆不可小视的力量,更让百度寝食难安。图2-
21为360搜索首页。图 2-21 360搜索
不管是百度、搜狗还是360,他们在搜索方面的技术都存在很多相似之
处,我们不太可能分别针对三大不同的搜索引擎来优化我们的网站。我
的原则是在满足百度的基础之上,兼顾其他的搜索引擎。
了解搜索引擎的工作原理是开展搜索引擎优化工作的基础。只有充分掌
握搜索引擎工作的流程及原理,我们才能更好地规划网站,提高网站的
搜索引擎友好性。第 3 章 关键字
要对网站进行优化,首先需要为网站中的页面选择合适的关键字,然后,围绕突出关键字、提高页面相关性开展一系列的工作,从而
提高页面在相应关键字搜索结果中的排名。本章将在关键字策略一
节中介绍如何寻找及筛选关键字;而对于突出关键字、提高页面相
关性则分别在关键字词频、关键字密度、辅关键字及关键字分布中
进行说明。
本章内容
关键字简介
关键字词频
关键字密度
关键字词频与密度的关系
主关键字
辅关键字
关键字分布及表现形式
关键字策略3.1 关键字简介
关键字(keyword)在不同的领域有不同的含义。在搜索引擎中,关键
字是指用户在寻找相关内容时所使用的信息,是搜索应用的基础,也是
搜索引擎优化的基础。搜索引擎优化的作用之一就是提高页面与某个关
键字之间的相关性,要了解关键字与页面相关性的关系,我们要从认识
关键字词频及关键字密度开始。3.2 关键字词频
关键字词频是指某个关键字在页面中出现的频率,也即关键字在页面中
出现的次数,从一定程度上反映了页面与该关键字之间的相关性。
在搜索引擎发展初期,搜索结果中页面的排序基本是由关键字词频所决
定的。也就是说,页面中某个关键字出现的次数越多,说明该页面与此
关键字间的相关性就越高,因此,在这个关键字的搜索结果中排名就越
靠前。这种单纯以词频决定排序的方式,极容易被恶意操纵,从而影响
搜索引擎的用户体验。因此,搜索引擎逐渐引进了诸如关键字密度、关
键字分布、链接锚文本、外部链接数量、外部链接质量及外部链接相关
性等因素进行制约。3.3 关键字密度
在实际中,常用关键字密度来衡量页面中关键字的词频是否合理。关键
字密度主要由关键字词频及总词汇量两个因素决定,这三者之间的关系
如下:
关键字密度=关键字词频总词汇量
式中,总词汇量是指页面程序标签(如HTML标签及ASP、JSP、PHP
等)以外的词汇的数量。
以下对关键字密度的理解是不正确的:关键字密度=关键字总字节数
页面总字节数。
目前很多所谓的中文关键字密度工具都是按照这样的方法计算关键字密
度的。例如,对于中文关键字“手机”,在页面中出现了1次,如果页面
大小是1KB,则“手机”的关键字密度就是41024(1个中文字符=2字节,1个英文字符=1字节)。这样的统计结果是错误的。
了解关键字密度,要先认识搜索引擎对页面的分词。本书将从中英文这
两种我们平常接触得最多的语言出发介绍关键字密度。
3.3.1 英文关键字密度
要了解英文关键字密度,关键是要认识在英文语言环境中,搜索引擎是
怎样对页面进行分词的。
1. 分词
分词又称为切词,是指把网页中的正文内容 划分为若干个具有实际意
义的词汇(参见2.3.2节)。
网页正文内容是指去掉网页中程序标签(如HTML标签、JSP等)以外的内容。
2. 英文分词
在英文书面表达里,空格是单词之间的自然分隔符,而句点就是一个句
1
1子或者段落结束的标记。根据这个特征,搜索引擎就可以轻易地对网页
正文内容进行准确的划分。
如图3-1所示,camcorder battery之间的空格就单词camcorder与单词
battery间的分隔符;而句点“.”则是该句子结束的标记。
图 3-1 英文句子
3. 英文关键字密度
在英文中,同一单词的不同形式会被认为是两个不同的单词(大小写除
外)。例如,battery与其复数形式batteries,就会被认为是两个不同的单
词。在图3-1的句子中,battery与batteries各在页面中出现了1次,则
battery与batteries的关键字密度都是117。
而对于英文词组,在衡量这个英文词组的关键字密度是否合理时,除了
计算这个英文词组的关键字密度以外,还要计算组成英文词组里的每一
个单词的密度。例如,在图3-1中,对于词组关键字camcorder battery,除了要统计camcorder battery这个词组的关键字密度以外,还要统计
camcorder battery中的camcorder与battery的关键字密度。即camcorder
battery在页面中出现了一次,它的关键字密度 就是116 ,而 camcorder
与battery都只出现了一次,则它们的关键字密度都为117。
由于camcorder battery被看作一个整体,所以,网页中的词汇量只有16。
通过手工的方式去统计页面中的关键字密度显然是不可行的。下面,向
大家介绍一个计算英文页面中关键字密度的工具—关键字密度检查器。
4. 英文关键字密度工具
关键字密度检查器(工具地址:http:www.webconfs.comkeyword-
density-checker.php)只适用于英文网站,这个工具通过统计页面中每一
个单词出现的次数,计算出每个单词占页面总单词量的比例,如图3-2
2
2所示。
图 3-2 关键字密度检查器界面
我们只需要在文本框中输入要查询的页面URL即可,例如输
入http:www.pcb-prototype.net,点击submit即可查询该页面中关键字的
密度,如图3-3所示。
图 3-3 页面中部分关键字的密度
3.3.2 中文关键字密度
1. 中文分词
在中文里,字或者词之间并不存在自然分隔符,而且中文里的词通常由
两个或两个以上的中文字符组成。因此,搜索引擎不能借助分隔符对页
面的正文内容进行分词,而是基于自有词典,再结合某种算法对页面正文内容进行分词(请参考2.3.2节)。
2. 中文关键字密度
为了让读者可以更加容易理解中文关键字密度 ,下面举一个简单的例
子进行说明。例如,网页内容为“我的笔记本”,基于现有的词典,搜索
引擎将其分为“我”“的”“笔记本”,则关键字“笔记本”在这个网页中的密
度就是13。
由于中文存在分词问题,目前还没有工具可以准确地统计中文关键字密度。
对于短语关键字,在衡量这个短语的关键字密度是否合理时,除了计算
这个短语的关键字密度,还要计算组成短语里的每个词的密度。例
如,“智能手机走进大众市场”切分为“智能”“手机”“走进”“大众”“市
场”。短语关键字“智能手机”的关键字密度是14 ,而“智能手机”中
的“智能”及“手机”各出现了一次,它们的关键字密度都是15。
由于“智能手机”被看作是一个整体,所以,网页中的词汇量只有4。
3.3.3 关键字密度范围
通过以上内容,我们知道了搜索引擎对页面的分词方法,以及如何计算
中英文页面中的关键字密度。然而,网页中关键字的密度在什么范围内
才被认为是与某关键字高相关的?具体我们无从得知。通常,搜索引擎
会对若干样本数据进行综合分析,最终确定关键字密度值在哪个范围内
页面相关性更高,再以此值来衡量待分析网页中的关键字密度是否合
理。
关键字密度的范围在不同的搜索引擎中会有所差别。基于长期的英文网
站优化经验,一般认为,关键字密度在6%~10% 是比较合理的。
此值仅是基于经验总结出来,主观性较强,而且目前并没有中文关键字密度分析工具,因此
对于中文网页意义不大。
3.3.4 关键字密度与页面相关性
关键字密度是衡量页面相关性的重要指标之一。搜索引擎会根据页面中
每个关键字的密度对页面的主题进行定位。也就是说,如果我们的页面
3
3
4
4
5
5要出现在某个关键字K的搜索结果中,最基本的是页面中K的关键字密
度要在某个特定的范围以内(如6%~10%)。
例如,要想让网站中的某个页面出现在“手机”的搜索结果中,则首要条
件就是该页面上“手机”这个词的关键字密度要在某一个特定的范围内。
否则,就会被排除在“手机”的搜索结果以外。3.4 关键字词频与密度的关系
尽管关键字密度与关键字词频都是表达页面中某个关键字的多寡,但是
两者的含义却存在很大差别。关键字词频表达的是关键字出现的次数,而关键字密度表达的是该关键字的词频与页面总词汇量的比例。两者的
关系如下。
关键字密度是衡量页面中关键字词频是否合理的重要指标。
当两个页面词汇量相等时,关键字密度越大,词频就越大;反之亦
然。但是,不管是关键字密度还是词频,都不是越大越好,而是有
一个阈值。关键字密度达到某个阈值时,页面相关性最高,当高于
或者低于这个阈值时,页面相关性就会出现递减。如图3-4所示。
图 3-4 关键字密度与页面相关性的关系3.5 主关键字
主关键字是指表达页面主题的关键字,而非意义最广泛的关键字。例
如,一个页面的主题是“手机铃声下载”,那么这个页面的主关键字就
是“手机铃声下载”,而非“手机铃声”或者“手机”。3.6 辅关键字
由于一个关键字会存在多种不同的表达或者描述方式,从而产生了所谓
的辅关键字。例如,英文的单复数或词组,中文的结构短语(如形容词
+名词),等等。
3.6.1 辅关键字简介
辅关键字是指对主关键字进行相应的增加或删除以后产生的、对主关键
字的意义在程度或者范围上起到扩大或者缩小作用的关键字。
在英文语言环境里,我们除了可以使用主关键字与其他单词或词组
组合后产生的新词组作为辅关键字以外,还可以选择主关键字的单
复数等形式作为辅关键字。例如,battery与另外一个单词camcorder
组合后产生的词组camcorder battery是一个辅关键字;而复数形式
batteries也是主关键字battery的一个辅关键字。
在中文语言环境中,我们也是通过对主关键字进行相应增加或删除
的方法得到辅关键字。例如,主关键字“手机”与“智能”这个词组合
后,就产生一个新的辅关键字“智能手机”。
3.6.2 辅关键字作用
在页面中,辅关键字可以有效增加主关键字的词频,突出页面的主题。
此外,辅关键字的存在还会提高页面被检索的几率,从而增加网站的流
量。
1. 在内容方面,辅关键字是主关键字的一个重要的说明及补充。
例如,有两个网站,包含以下栏目。
甲网站:“手机”“诺基亚”“三星”“摩托罗拉”“多普达”
乙网站:“手机”“智能手机”“拍照手机”“音乐手机”“娱乐手机”
乙网站中的辅关键字“智能手机”“拍照手机”“音乐手机”“娱乐手机”就可以对主关键字“手机”进行重要的补充,提高页面相关性。
2. 利用辅关键字可以有效增加主关键字的词频,控制关键字密度,避免
为了提高主关键字词频而陷入堆砌关键字的误区。
例如,有两个内容如下的页面。
页面1:“手机”“智能手机”“商务手机”“音乐手机”“拍照手机”
页面2:“手机”“手机”“手机”手机”“手机”“手机”
搜索引擎对页面1进行分词操作后,得到词汇:“手机”“智能”“手
机”“商务”“手机”“音乐”“手机”“拍照”“手机”,则页面1中主关键
字“手机”的关键字密度就是59,而词频是5。
而经过对页面2进行分词操作后,得词汇“手机”“手机”“手机”“手
机”“手机”。则主关键字“手机”的关键字密度是100%,而词频也是
5。
假设关键字密度在10%的时候,页面相关性最高。页面1显然比页
面2更接近这个值。
3. 增加相关的辅关键字还可以提高页面在其他关键字搜索结果中被检索
的几率。
例如,一个页面中存在主关键字“手机”及辅关键字“手机报价”“手机图
片”,那么用户除了可以在主关键字“手机“的搜索结果中发现该页面以
外,还有可能在“手机报价”“手机图片”等辅关键字的搜索结果中发现该
页面。
经过上面的介绍,相信读者对关键字词频及密度与页面相关性的关系已
经有了一定的了解。接下来介绍的是关键字的分布及表现形式与页面相
关性之间的关系。3.7 关键字分布及表现形式
搜索引擎对网页的分析是在网页的HTML源代码上进行的,网页的源代
码从一定程度上反映了搜索引擎分析网页内容的先后顺序。本节将结合
页面布局及HTML源代码对关键字的分布规律进行说明。
3.7.1 关键字分布
搜索引擎分析网页的时候,在HTML源代码中是自上而下地进行的。而
从页面布局的角度上看,则是自上而下、自左而右地进行的,这与用户
浏览网页的习惯也是相符合的。因此,搜索引擎会更加重视网页中首先
出现的内容,我们在规划页面时也应该把相对重要的内容安排在页面的
顶部。如图3-5所示,搜索引擎对页面的重视程度沿着箭头方向逐渐降
低。
图 3-5 用户浏览习惯
下面,我们再从文章写作的角度分析关键字的分布规律。在一篇文章
中,题目是最先出现的;然后就是文章的简述;再就是围绕文章主题而展开描述的内容;最后通常是对文章内容的总结。对于网页而言,网页
标题标签就是网页的“题目”;描述标签的内容则是文章的简述,网页正
文内容就是文章内容,网页最底部内容就是文章内容的总结。因此,页
面中的主辅关键字应该合理地分布在这些区域上。
1. 页面头部,主要包括标题、描述及关键字标签(简称TDK标签)。标
题内容在网页头部中是最先出现的,然后就是描述(这相当于文章的题
目与简述)及关键字标签的内容。所以,要让主关键字优先出现在标题
及描述内容的最前面(TDK优化请参考5.3节)。
如下面代码所示,主关键字“长沙激光治疗近视价格”在标题及描述内容
的最前面出现。
长沙激光治疗近视价格 – 康华眼科网
2. 网页正文。在网页正文中,相对重要的就是网页的最顶部及最底部,即接近 标签后及标签前的位置,如下所示。
顶部代码:
2. 网页正文。在网页正文中,相对重要的就是网页的最顶部及最底部,即接近




