当前位置: 首页 > 新闻 > 信息荟萃
编号:3034
seo教程搜索引擎优化入门与进阶第三版.pdf
http://www.100md.com 2020年2月14日
第1页
第10页
第16页
第22页
第328页

    参见附件(13910KB,521页)。

     seo教程搜索引擎优化入门与进阶,做网站就要做好seo优化,但是对于seo引擎优化不会的人这本书就非常适合来学习了,作者在里面讲述了多年经验的优化路线,为读者更快学习好seo!

    简介

    本书深入剖析了搜索引擎优化的各个细节,包括关键字策略、URL优化、代码优化、图片优化、网页结构、网站结构、链接策略、搜索引擎优化误区、常用工具介绍及服务器的选择等。第3版完善了搜索引擎特色算法、搜索引擎抓取策略、网页更新策略说明、搜索引擎优化作弊新方式,新增了百度站长工具、Google管理员工具、去查、追词等工具的使用说明。

    此书对SEO技术的各个知识点均有系统介绍,且配有详细的图文案例说明,适合SEO初学者以及具备一定基础的读者,对于网站运营、网站策划、网站推广、网站设计、程序开发人员更是必备的手册。此外,《SEO教程:搜索引擎优化入门与进阶(第3版)》还可以用作大中院校电子商务专业、计算机应用专业的教材。

    作者

    吴泽欣,男,1981年出生,广东江门人,专业搜索引擎优化人员。2003年开始涉足搜索引擎优化行业,为数十家网站提供过网站优化、SEO培训服务,其中不乏知名网站,例如:太平洋电脑网、易比网等;担任多家网站的SEO顾问,例如:易比网、欧酷网等。

    具有丰富的实践操作经验及理论知识。撰写、翻译过数百篇具有较高水平的搜索引擎优化文章,被多家媒体及数以万计同行网站争相转载(如:天极等),在业内具有一定的知名度。

    主目录

    第1章初探SEO

    第2章搜索引擎工作原理

    第3章关键字

    第4章URL优化

    第5章代码优化

    第6章图片优化

    第7章网页结构

    第8章网站结构

    第9章链接策略

    第10章服务器的选择

    第11章搜索引擎优化作弊

    第12章搜索引擎优化工具

    第13章和第14章案例分析

    前言

    随着互联网信息的爆炸性增长,搜索引擎作为信息查询工具得到越来越广泛的应用,其商业价值也随之被发掘,从而产生了竞价排名、关键字广告及搜索引擎优化等网络营销方式。其中,搜索引擎优化作为主要的搜索引擎营销方式,因其具有低成本、高回报等优势而得到广泛的应用。

    在国内,搜索引擎优化行业正逐渐进入正规发展的新时期。为了帮助初学者及具有一定经验的读者更系统、更深入地学习搜索引擎优化技术,我将通过本书与广大读者分享从业11年来的经验,深入剖析搜索引擎优化的各个细节,包括关键字策略、URL优化、代码优化、图片优化、网页结构、网站结构、链接策略、搜索引擎优化误区及服务器的选择等。

    随着时间的推移,搜索引擎的算法也会不断地完善。因此,在实际操作中我们还可能会遇到各种各样的新问题,这就要求我们要时刻关注搜索引擎的动态,总结实践经验,这样才能实现自我提升,在激烈的竞争中脱颖而出!

    seo教程搜索引擎优化入门与进阶截图

    书名:SEO教程:搜索引擎优化入门与进阶(第3版)

    作者:吴泽欣

    ISBN:978-7-115-35701-4

    本书由北京图灵文化发展有限公司发行数字版。版权所有,侵权必

    究。

    您购买的图灵电子书仅供您个人使用,未经授权,不得以任何方式复制

    和传播本书内容。

    我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

    如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐

    号等维权措施,并可能追究法律责任。

    图灵社区会员 ( ?

    ω ?)y(2228681634@qq.com) 专享 尊重版权前言

    本书结构

    第 1 章 初探SEO

    第 2 章 搜索引擎工作原理

    第 3 章 关键字

    第 4 章 URL优化

    第 5 章 代码优化

    第 6 章 图片优化

    第 7 章 网页结构

    第 8 章 网站结构

    第 9 章 链接策略

    第 10 章 服务器的选择

    第 11 章 搜索引擎优化作弊

    第 12 章 搜索引擎优化工具

    第 13 章和第 14 章 案例分析

    第3版修订说明

    读者对象

    第 1 章 初探SEO

    1.1 网络营销

    1.2 搜索引擎营销

    1.3 关键字广告

    1.4 竞价排名

    1.5 搜索引擎联盟广告

    1.6 SEO简介

    1.6.1 SEO基本概念

    1.6.2 SEO与搜索引擎广告的区别

    1.6.3 SEO发展历史

    1.6.4 SEO优缺点1.6.5 SEO应用领域

    1.6.6 SEO主要工作

    1.6.7 SEO宗旨

    1.6.8 SEO职业道德

    第 2 章 搜索引擎工作原理

    2.1 搜索引擎发展历史

    2.2 搜索引擎分类

    2.2.1 全文搜索引擎

    2.2.2 目录搜索引擎

    2.2.3 元搜索引擎

    2.3 搜索引擎工作原理

    2.3.1 搜索引擎抓取策略

    2.3.2 页面分析

    2.3.3 页面排序

    2.3.4 关键字查询

    2.4 搜索引擎特色算法

    2.4.1 TrustRank算法

    2.4.2 BadRank算法

    2.4.3 百度绿萝算法

    2.5 搜索引擎介绍

    2.5.1 Google

    2.5.2 百度

    2.5.3 搜狗

    2.5.4 360搜索

    第 3 章 关键字

    3.1 关键字简介

    3.2 关键字词频

    3.3 关键字密度3.3.1 英文关键字密度

    3.3.2 中文关键字密度

    3.3.3 关键字密度范围

    3.3.4 关键字密度与页面相关性

    3.4 关键字词频与密度的关系

    3.5 主关键字

    3.6 辅关键字

    3.6.1 辅关键字简介

    3.6.2 辅关键字作用

    3.7 关键字分布及表现形式

    3.7.1 关键字分布

    3.7.2 关键字表现形式

    3.7.3 关键字描述

    3.8 关键字策略

    3.8.1 关键字寻找

    3.8.2 用户搜索习惯分析

    3.8.3 关键字评估

    3.8.4 关键字选择策略

    第 4 章 URL优化

    4.1 URL优化简介

    4.2 URL简介

    4.3 URL命名技巧

    4.3.1 汉字命名形式

    4.3.2 英文命名形式

    4.3.3 拼音命名形式

    4.4 分隔符的使用

    4.4.1 常见分隔符

    4.4.2 空格与横杠4.4.3 下划线“_”

    4.4.4 反斜杠“”

    4.5 URL长度

    4.5.1 域名长度6

    4.5.2 路径长度

    4.5.3 文件名长度

    4.5.4 URL长度

    4.5.5 URL长度的影响

    4.6 关键字词频

    4.7 关键字结合

    4.8 URL各组成部分优化

    4.8.1 域名

    4.8.2 子域名

    4.8.3 路径

    4.8.4 文件名

    4.9 URL重定向

    4.9.1 301重定向

    4.9.2 302重定向

    4.9.3 URL转发

    4.10 URL静态化

    4.10.1 URL重写

    4.10.2 生成静态页面

    第 5 章 代码优化

    5.1 代码优化简介

    5.2 精简代码

    5.2.1 清理垃圾代码

    5.2.2 HTML标签转换

    5.2.3 CSS优化5.2.4 JavaScript优化

    5.2.5 表格优化

    5.3 页面头部优化

    5.3.1 摘要信息

    5.3.2 标签<br/><br/>     5.3.3 <Description>标签<br/><br/>     5.3.4 <Keywords>标签<br/><br/>     5.3.5 其他标签<br/><br/>     5.4 权重标签使用<br/><br/>     5.4.1 <h>标签<br/><br/>     5.4.2 <font>标签<br/><br/>     5.4.3 <strong>标签<br/><br/>     5.4.4 <i>标签<br/><br/>     5.4.5 <u>标签<br/><br/>     第 6 章 图片优化<br/><br/>     6.1 图片描述<br/><br/>     6.1.1 图片名称<br/><br/>     6.1.2 alt属性<br/><br/>     6.1.3 周边内容<br/><br/>     6.2 图片压缩<br/><br/>     6.2.1 图片压缩原理<br/><br/>     6.2.2 图片格式问题<br/><br/>     6.2.3 图片缩小<br/><br/>     6.3 图片压缩工具<br/><br/>     6.3.1 Image Optimizer<br/><br/>     6.3.2 Photoshop<br/><br/>     第 7 章 网页结构<br/><br/>     7.1 网页结构7.2 网页组成元素<br/><br/>     7.2.1 导航栏<br/><br/>     7.2.2 栏目<br/><br/>     7.2.3 正文内容<br/><br/>     7.3 页面重要区域分布规律<br/><br/>     7.3.1 页面布局<br/><br/>     7.3.2 HTML源代码<br/><br/>     7.4 网页结构类型<br/><br/>     7.4.1 导航型<br/><br/>     7.4.2 内容型<br/><br/>     7.4.3 内容导航结合型<br/><br/>     7.5 常用页面技术<br/><br/>     7.5.1 隐藏层<br/><br/>     7.5.2 Flash元素<br/><br/>     7.5.3 框架<br/><br/>     第 8 章 网站结构<br/><br/>     8.1 网站结构<br/><br/>     8.2 搜索引擎对重要页面的抓取<br/><br/>     8.3 逻辑结构<br/><br/>     8.3.1 链接深度<br/><br/>     8.3.2 URL与链接深度的关系<br/><br/>     8.3.3 逻辑结构类型<br/><br/>     8.4 物理结构<br/><br/>     8.4.1 目录深度<br/><br/>     8.4.2 URL与目录深度的关系<br/><br/>     8.4.3 物理结构类型<br/><br/>     8.5 网站结构优化<br/><br/>     8.5.1 逻辑结构优化8.5.2 物理结构优化<br/><br/>     8.5.3 理想结构<br/><br/>     8.5.4 合理结构<br/><br/>     8.6 网站结构规划实例<br/><br/>     8.6.1 逻辑结构<br/><br/>     8.6.2 物理结构<br/><br/>     第 9 章 链接策略<br/><br/>     9.1 链接<br/><br/>     9.1.1 链接对象<br/><br/>     9.1.2 导入与导出链接<br/><br/>     9.1.3 内部链接<br/><br/>     9.1.4 外部链接<br/><br/>     9.2 链接的意义<br/><br/>     9.2.1 链接与页面相关性<br/><br/>     9.2.2 链接与页面权重继承<br/><br/>     9.3 内部链接<br/><br/>     9.3.1 内部投票机制<br/><br/>     9.3.2 内部链接数量<br/><br/>     9.3.3 内部链接意义<br/><br/>     9.4 外部链接<br/><br/>     9.4.1 外部投票机制<br/><br/>     9.4.2 链接主题相关性<br/><br/>     9.4.3 外部链接数量<br/><br/>     9.4.4 外部链接质量<br/><br/>     9.4.5 外部链接意义<br/><br/>     9.5 增加外部链接的方法<br/><br/>     9.5.1 分类目录<br/><br/>     9.5.2 交换链接9.5.3 购买链接<br/><br/>     9.5.4 链接诱饵<br/><br/>     第 10 章 服务器的选择<br/><br/>     10.1 服务器所在的国家(地区)<br/><br/>     10.2 服务器的性能<br/><br/>     10.2.1 带宽<br/><br/>     10.2.2 服务器资源<br/><br/>     10.2.3 连接数<br/><br/>     10.2.4 月流量<br/><br/>     10.2.5 访问速度<br/><br/>     10.2.6 附加服务<br/><br/>     10.3 服务器功能<br/><br/>     10.3.1 是否支持URL重写<br/><br/>     10.3.2 数据备份<br/><br/>     10.3.3 404页面设置<br/><br/>     10.3.4 子域名数量<br/><br/>     10.4 虚拟空间弊端<br/><br/>     第 11 章 搜索引擎优化作弊<br/><br/>     11.1 搜索引擎优化作弊简介<br/><br/>     11.2 常见的内容作弊方式<br/><br/>     11.2.1 关键字堆砌<br/><br/>     11.2.2 隐藏文本<br/><br/>     11.2.3 空页面<br/><br/>     11.2.4 内容农场<br/><br/>     11.2.5 标签滥用<br/><br/>     11.2.6 不相关搜索结果页<br/><br/>     11.3 镜像网站<br/><br/>     11.4 门页11.5 伪装<br/><br/>     11.6 302重定向<br/><br/>     11.6.1 meta重定向<br/><br/>     11.6.2 JavaScript重定向<br/><br/>     11.7 链接作弊<br/><br/>     11.7.1 垃圾链接<br/><br/>     11.7.2 外部链接作弊方式<br/><br/>     11.7.3 如何识别链接作弊网站<br/><br/>     11.8 作弊处罚<br/><br/>     11.8.1 降低权重<br/><br/>     11.8.2 列入黑名单<br/><br/>     11.8.3 被惩罚后处理办法<br/><br/>     11.9 举报作弊网站的方法<br/><br/>     11.9.1 Google<br/><br/>     11.9.2 百度<br/><br/>     第 12 章 搜索引擎优化工具<br/><br/>     12.1 关键字查询工具<br/><br/>     12.2 Google管理员工具<br/><br/>     12.2.1 网站信息中心<br/><br/>     12.2.2 网站信息<br/><br/>     12.2.3 搜索外观<br/><br/>     12.2.4 搜索流量<br/><br/>     12.2.5 Google索引<br/><br/>     12.2.6 抓取<br/><br/>     12.3 百度管理员工具<br/><br/>     12.3.1 站点管理<br/><br/>     12.3.2 数据提交<br/><br/>     12.3.3 网站配置12.3.4 网站分析<br/><br/>     12.4 追词<br/><br/>     12.4.1 相关关键字<br/><br/>     12.4.2 网站监控<br/><br/>     12.4.3 排名监控<br/><br/>     12.5 去查网<br/><br/>     12.5.1 综合查询<br/><br/>     12.5.2 百度权重查询<br/><br/>     12.6 Sitemap生成器<br/><br/>     12.6.1 工具栏<br/><br/>     12.6.2 菜单栏<br/><br/>     12.7 SEO Administrator<br/><br/>     12.7.1 链接广泛度检测器<br/><br/>     12.7.2 交换链接工具<br/><br/>     12.7.3 网站分析器<br/><br/>     12.7.4 排名监控器<br/><br/>     第 13 章 案例分析1<br/><br/>     13.1 网站优化前的准备<br/><br/>     13.2 第一阶段:网站基本信息<br/><br/>     13.3 第二阶段:去除弊端<br/><br/>     13.3.1 Iframe清理<br/><br/>     13.3.2 隐藏层<br/><br/>     13.4 第三阶段:网站结构<br/><br/>     13.4.1 调整前结构<br/><br/>     13.4.2 调整后结构<br/><br/>     13.5 第四阶段:关键字策略<br/><br/>     13.5.1 熟悉网站所在行业<br/><br/>     13.5.2 关键字寻找13.5.3 关键字评估<br/><br/>     13.6 第五阶段:页面优化<br/><br/>     13.6.1 头部优化<br/><br/>     13.6.2 关键字布局<br/><br/>     13.6.3 代码优化<br/><br/>     13.7 第六阶段:页面索引<br/><br/>     13.7.1 提交网站地图文件<br/><br/>     13.7.2 网站地图页面<br/><br/>     13.7.3 重点推荐频道<br/><br/>     13.8 第七阶段:外部链接关系建立<br/><br/>     13.8.1 交换友情链接<br/><br/>     13.8.2 登录分类目录<br/><br/>     13.9 第八阶段:网站维护<br/><br/>     13.9.1 页面调整<br/><br/>     13.9.2 网站监控<br/><br/>     13.9.3 关键字维护<br/><br/>     13.9.4 链接维护<br/><br/>     第 14 章 案例分析2<br/><br/>     14.1 网站基本信息<br/><br/>     14.2 关键字寻找与筛选<br/><br/>     14.2.1 关键字寻找<br/><br/>     14.2.2 关键字筛选<br/><br/>     14.3 网站结构构建<br/><br/>     14.3.1 逻辑结构<br/><br/>     14.3.2 物理结构<br/><br/>     14.4 网页结构构建<br/><br/>     14.5 关键字分布及表现<br/><br/>     14.6 URL优化14.7 头部优化<br/><br/>     14.8 代码优化<br/><br/>     14.8.1 垃圾代码清理<br/><br/>     14.8.2 HTML标签转换<br/><br/>     14.8.3 权重标签使用<br/><br/>     14.8.4 图片描述<br/><br/>     14.9 链接策略<br/><br/>     附录A 常用术语<br/><br/>     SEOer<br/><br/>     PR值<br/><br/>     原理<br/><br/>     SogouRank<br/><br/>     页面收录数<br/><br/>     页面包含数<br/><br/>     链接广泛度<br/><br/>     蜘蛛程序<br/><br/>     robot.txt<br/><br/>     垃圾链接制造厂<br/><br/>     停用词<br/><br/>     附录B 常见问题<br/><br/>     作者自述:我的SEO之路<br/><br/>     择业<br/><br/>     入门<br/><br/>     机遇<br/><br/>     个人站长<br/><br/>     新生<br/><br/>     选择<br/><br/>     《SEO教程》的诞生结语前言<br/><br/>     随着互联网信息的爆炸性增长,搜索引擎作为信息查询工具得到越来越<br/><br/>     广泛的应用,其商业价值也随之被发掘,从而产生了竞价排名、关键字<br/><br/>     广告及搜索引擎优化等网络营销方式。其中,搜索引擎优化作为主要的<br/><br/>     搜索引擎营销方式,因其具有低成本、高回报等优势而得到广泛的应<br/><br/>     用。<br/><br/>     在国内,搜索引擎优化行业正逐渐进入正规发展的新时期。为了帮助初<br/><br/>     学者及具有一定经验的读者更系统、更深入地学习搜索引擎优化技术,我将通过本书与广大读者分享从业11年来的经验,深入剖析搜索引擎优<br/><br/>     化的各个细节,包括关键字策略、URL优化、代码优化、图片优化、网<br/><br/>     页结构、网站结构、链接策略、搜索引擎优化误区及服务器的选择等。<br/><br/>     随着时间的推移,搜索引擎的算法也会不断地完善。因此,在实际操作<br/><br/>     中我们还可能会遇到各种各样的新问题,这就要求我们要时刻关注搜索<br/><br/>     引擎的动态,总结实践经验,这样才能实现自我提升,在激烈的竞争中<br/><br/>     脱颖而出!本书结构<br/><br/>     本书章节的顺序是根据网站优化实施的流程及步骤制定的,主要围绕搜<br/><br/>     索引擎优化的核心基础环节而展开。为了帮助读者更好地理解其中的含<br/><br/>     义,书中还引用了大量的图文例证。<br/><br/>     本书共分为14章。第1章主要介绍SEO的概况;第2章介绍搜索引擎发展<br/><br/>     的历史、分类及工作原理等;第3~10章详细介绍了搜索引擎优化的每<br/><br/>     个基础环节及操作技巧;第11章介绍常见的搜索引擎优化作弊方式;第<br/><br/>     12章介绍几个常用的搜索引擎优化工具及使用方法;第13章和第14章,则以两个网站的优化作为案例,向读者介绍已有网站的优化流程及细<br/><br/>     节。<br/><br/>     第 1 章 初探SEO<br/><br/>     这一章详细介绍了竞价排名、关键字广告、搜索引擎联盟广告及搜索引<br/><br/>     擎优化这几种目前最主要的搜索引擎营销方式,读者还可从中了解到<br/><br/>     SEO的发展历史、现状、前景、重要性及主要的工作内容等。<br/><br/>     第 2 章 搜索引擎工作原理<br/><br/>     这一章主要介绍搜索引擎的工作原理,从搜索引擎对页面的收录、索<br/><br/>     引、分析、排序到向用户提供查询服务等多方面进行了详细的说明,这<br/><br/>     些是学习搜索引擎优化的基础。<br/><br/>     页面抓取:主要介绍搜索引擎抓取页面的流程及方式,以及搜索引<br/><br/>     擎对已抓取页面的存储及维护方法。<br/><br/>     页面分析:介绍了搜索引擎对网页分析的流程及原理,包括对网页<br/><br/>     正文信息的提取、切词及建立关键字正反向索引等。<br/><br/>     页面排序:介绍了决定页面排序的三大主要因素,即页面相关性、链接权重及用户行为。<br/><br/>     查询功能:从用户在搜索引擎中发起查询请求开始,到返回相关结<br/><br/>     果的流程及原理。第 3 章 关键字<br/><br/>     这一章介绍了与关键字相关的一系列内容,包括关键字词频、关键字密<br/><br/>     度、辅关键字、关键字在页面中的分布和表现,以及关键字的寻找、评<br/><br/>     估和筛选等。<br/><br/>     本章首先从关键字的词频出发,结合关键字密度说明关键字词频的合理<br/><br/>     范围;然后,引进辅关键字概念,进一步说明如何利用辅关键字合理增<br/><br/>     加主关键字的词频,从而提高页面相关性;再介绍关键字在页面中分布<br/><br/>     的规则;最后,就是关键字的寻找、评估及筛选方法。<br/><br/>     第 4 章 URL优化<br/><br/>     这一章是关于URL优化,主要介绍URL各组成部分的命名及组合技巧,包括域名的选择、目录及文件的命名,以及目录名称间、目录名称与文<br/><br/>     件名称间的组合技巧。而为了实现所谓的动态页面静态化,还介绍了在<br/><br/>     Apache、IIS等环境下如何进行URL重写。<br/><br/>     第 5 章 代码优化<br/><br/>     这一章介绍了代码优化的各个细节,包括精简代码、头部优化(即页面<br/><br/>     的标题、描述及关键字标签的优化)、CSS优化、JavaScript优化、表格<br/><br/>     优化、权重标签的使用等。<br/><br/>     第 6 章 图片优化<br/><br/>     这一章主要介绍图片优化,包括图片优化的方式、图片压缩的原理,以<br/><br/>     及两个主要的图片压缩工具Image optimizer和Photoshop。<br/><br/>     第 7 章 网页结构<br/><br/>     这一章介绍的是网页结构构建的方法及技巧。首先从HTML源代码及页<br/><br/>     面布局的角度出发,说明页面重要位置的分布规律;然后,介绍几种常<br/><br/>     见的网页结构类型及构建方法;最后介绍几种常见页面的优化方法,例<br/><br/>     如Flash、隐藏层、框架等。<br/><br/>     第 8 章 网站结构这一章从网站的物理结构及逻辑结构出发,向读者介绍网站结构的构建<br/><br/>     及优化技巧。<br/><br/>     第 9 章 链接策略<br/><br/>     这一章从内部链接及外部链接的角度出发,对链接关系进行了详细的说<br/><br/>     明。此外,还介绍了几种可以有效增加高质量外部链接的方法。<br/><br/>     第 10 章 服务器的选择<br/><br/>     这一章主要介绍从搜索引擎优化的角度怎样选择服务器。<br/><br/>     第 11 章 搜索引擎优化作弊<br/><br/>     这一章介绍了几种常见的搜索引擎优化作弊方式,包括内容作弊、镜像<br/><br/>     网站、门页、伪装、302重定向及链接作弊等。此外,还介绍了网站因<br/><br/>     违规而遭到惩罚后的处理方法,以及如何举报那些正在使用违规手段操<br/><br/>     纵排名的网站。<br/><br/>     第 12 章 搜索引擎优化工具<br/><br/>     这一章介绍了常用的搜索引擎优化工具,包括关键字查询工具(如百度<br/><br/>     关键字工具)、Google 管理员工具、百度管理员工具、追词、去查网、Sitemaps生成器及SEO Administrator部分特色功能,覆盖了从关键字寻<br/><br/>     找、网站监控、链接寻找及维护到排名监控的全过程。<br/><br/>     第 13 章和第 14 章 案例分析<br/><br/>     这两章以作者优化过的网站作为案例,向读者介绍网站优化的全过程及<br/><br/>     细节。首先,了解网站的基本情况;然后,为网站制定符合实际的关键<br/><br/>     字策略,并根据制定的关键字策略对网站中的页面进行优化(如头部、主体内容、HTML源代码等);接着想方设法提高网站的的页面收录<br/><br/>     数,以及增加外部链接;最后,对网站进行日常维护,进一步提高网站<br/><br/>     的用户体验及搜索引擎友好性。第3版修订说明<br/><br/>     本书第1版自2008年12月出版以来,销量理想,成为同类图书中销量最<br/><br/>     多的作品之一。为了纠正第1、2版中的一些细节错误,以及应对搜索引<br/><br/>     擎技术的更新和发展,本书对SEO相关内容进行了补充及完善,编写了<br/><br/>     第3版,新增或者修改内容如下:<br/><br/>     修正第2版里的细节错误;<br/><br/>     搜索引擎特色算法介绍;<br/><br/>     搜索引擎抓取策略补充及完善;<br/><br/>     网页更新策略说明的完善;<br/><br/>     搜索引擎优化作弊新方式的介绍;<br/><br/>     增加百度站长工具、去查、追词等工具的使用说明;<br/><br/>     更新Google管理员工具使用说明。读者对象<br/><br/>     阅读本书的读者并不需要具备程序开发的知识,但需具备网页制作的能<br/><br/>     力,对HTML语言有一定的了解。<br/><br/>     对于搜索引擎优化初学者,可以通过本书了解搜索引擎优化的各个<br/><br/>     基础环节、实施流程及操作技巧。同时,纠正目前正在或者已经犯<br/><br/>     下的错误,以及避免将要犯下的不必要的错误。<br/><br/>     对于具备一定搜索引擎优化经验的读者,可以把本书的理论与自己<br/><br/>     的实践经验相结合,在技术方面实现进一步的突破。<br/><br/>     对于企业营销部门的管理人员,本书可以帮助他们更好地开展搜索<br/><br/>     引擎营销工作。<br/><br/>     对于网站管理者来说,本书可以帮助他们更好地规划网站,进一步<br/><br/>     提高网站的用户体验及搜索引擎友好性。这些人包括网站设计制作<br/><br/>     者、网站站长、网站运营策划者、网站开发者等。<br/><br/>     本书还可以作为各大中院校电子商务或计算机应用等专业的教材,让学生可以掌握一门实用的技能,提高竞争力。第 1 章 初探SEO<br/><br/>     进入信息时代,互联网从根本意义上颠覆了传统行业。传统行业从<br/><br/>     研发、生产到销售,无一不与互联网发生着紧密的联系。特别是在<br/><br/>     产品销售方面,更是发生了翻天覆地的变化。过去只能摆在货架上<br/><br/>     销售的产品,如今被搬到互联网上,通过线上、线下相结合来提高<br/><br/>     产品的销量。与线下销售相比,线上销售具有成本更低、销量更<br/><br/>     大、不受时间及地域限制等优势。<br/><br/>     互联网凭借低成本、高回报的优势以迅雷不及掩耳之势摧毁了一家<br/><br/>     又一家商店、超市,或者把一家又一家的商店、超市收入麾下。如<br/><br/>     果你仍固步自封,不思进取的话,那么你的产品或企业将会被淹没<br/><br/>     在互联网的大潮里!在互联网高速发展的今天,我们要么顺应历史<br/><br/>     的潮流获得进一步发展的机会;要么被淘汰,别无选择!<br/><br/>     本章内容<br/><br/>     网络营销<br/><br/>     搜索引擎营销<br/><br/>     关键字广告<br/><br/>     竞价排名<br/><br/>     搜索引擎联盟广告<br/><br/>     SEO简介1.1 网络营销<br/><br/>     随着互联网的日益普及,为了通过互联网推广自身的产品或者服务,越<br/><br/>     来越多的企业建立了网站。然而,建立网站并不意味着企业就能通过互<br/><br/>     联网向潜在客户推广自身的产品或服务。<br/><br/>     网站只是企业展示产品、介绍服务的重要平台之一,相当于一家商店,而网站里的页面就是商店里存放商品的货架。要想让顾客购买你的产<br/><br/>     品,首先也是最重要的就是要吸引顾客走进这个商店,即访问你的网<br/><br/>     站,这就涉及网络营销的问题。<br/><br/>     网络营销是一种通过互联网推广产品或服务的营销方式,最常见的网络<br/><br/>     营销方式包括:富媒体广告营销、搜索引擎营销、E-mail营销、效果广<br/><br/>     告、社会化媒体营销(如论坛营销、SNS)等。其中,搜索引擎营销作<br/><br/>     为一种精准的网络营销方式,由于具有投入低、回报高的优势而得到广<br/><br/>     泛的应用。接下来,先向大家简单介绍一下搜索引擎营销及其优缺点。1.2 搜索引擎营销<br/><br/>     随着互联网信息的爆炸性增长,搜索引擎作为信息查询工具得到越来越<br/><br/>     广泛的应用。使用搜索引擎寻找信息已经成为人们获取信息最主要、也<br/><br/>     是最快捷的途径。<br/><br/>     由于用户总能在搜索引擎中找到他们所关心的信息,从而对搜索引擎产<br/><br/>     生了强烈的信任感,搜索引擎巨大的营销价值就蕴藏在用户对搜索结果<br/><br/>     信任的基础之上。如果商家的网站能在相关搜索结果中出现,那么就可<br/><br/>     以向目标客户展示他们的产品(或服务)。因为,通过搜索结果访问网<br/><br/>     站的用户极有可能就是其产品(或服务)的潜在客户。<br/><br/>     由此可知,从搜索引擎引导过来的用户对于网站是极其重要的。然而,怎样才能从搜索引擎上引导更多的用户呢?这就是接下来将要介绍的搜<br/><br/>     索引擎营销方面的内容。<br/><br/>     通过搜索引擎平台向潜在客户推销产品或者服务的行为,我们称之为搜<br/><br/>     索引擎营销,即SEM(Search Engine Marketing)。搜索引擎营销作为<br/><br/>     重要的网络营销方式之一,有着不可替代的优势。首先,搜索引擎覆盖<br/><br/>     范围广,是网民使用最频繁的互联网服务之一;其次,针对性强,信息<br/><br/>     的接收者就极可能是潜在客户。<br/><br/>     例如,某个用户在搜索引擎中搜索“网站优化”,则该用户可能是在寻找<br/><br/>     与网站优化相关的资料或者提供网站优化服务的公司。如果提供网站优<br/><br/>     化服务的公司能出现在这个搜索结果中,那么就可以向目标客户推广他<br/><br/>     们的服务了。<br/><br/>     由于在搜索引擎中,企业的产品(或服务)只能对寻找特定信息的用户<br/><br/>     进行展示,从而会错失游离在选择与非选择之间的客户。因此,搜索引<br/><br/>     擎营销并不适合品牌或产品的大型推广。<br/><br/>     目前,最常见的搜索引擎营销方式包括关键字广告、搜索引擎联盟广告<br/><br/>     (百度联盟广告)及搜索引擎优化。前两种方式以搜索引擎为后盾,占<br/><br/>     据天时、地利;但搜索引擎优化具有低投入、高产出的独特优势,与它<br/><br/>     们展开了激烈的竞争,并占据相当重要的地位。随着越来越多的企业加入搜索引擎广告投放阵地(传统关键字广告及联<br/><br/>     盟广告),广告的点击价格也随之水涨船高,逐渐失去其投入低、产出<br/><br/>     高的优势。尽管如此,搜索引擎广告仍然是商家目前首要的广告投放渠<br/><br/>     道,这与其天生的优势是不可分割的。1.3 关键字广告<br/><br/>     在搜索结果页面中,搜索引擎除了向用户提供与其查询内容相关的普通<br/><br/>     信息外,还会在相应的位置上附加与查询内容相关的广告信息。然后,通过统计用户点击广告的次数来收取商家相应的广告费用。在搜索结果<br/><br/>     页面的广告中,广告质量越高(客户支付的每点击费用越高,广告点击<br/><br/>     率越大,广告着陆页与关键字相关性越强),排名就越靠前,也就能向<br/><br/>     越多的潜在用户推销其产品(或服务)。这种购买关键字搜索结果页面<br/><br/>     中的广告排名位置的方式,我们称之为关键字广告。<br/><br/>     在不同的搜索引擎中,广告展示的位置及方式会有所区别。例如,Google的广告位于搜索结果页面的右侧(如图1-1所示),而百度、搜<br/><br/>     狗则位于自然搜索结果上方及右侧(如图1-2和图1-3所示),最多时会<br/><br/>     展示10个相关的关键字广告。<br/><br/>     图 1-1 Google广告展示位置图 1-2 百度广告展示位置<br/><br/>     图 1-3 搜狗广告展示位置1.4 竞价排名<br/><br/>     竞价排名就是指以竞价的方式拍卖搜索结果排名的行为。不管网站内容<br/><br/>     的真实、优劣与否,只要付出足够多的费用,你就可以在任意关键字上<br/><br/>     取得任意想要的排名。竞价排名是百度以前独有的盈利模式,由于严重<br/><br/>     影响用户体验,百度目前已经放弃了这种竞价排名的广告方式,转而采<br/><br/>     取关键字广告的方式。<br/><br/>     例如,在“数码相机”的搜索结果中,名列前5位的网站都是通过竞价的<br/><br/>     方式而得以展示的,这样在搜索结果的第一页就只剩下5个自然排名结<br/><br/>     果,如图1-4所示。图 1-4 百度数码相机搜索结果<br/><br/>     关键字广告以搜索引擎为后盾,占据了天时、地利。以关键字广告方式<br/><br/>     开展搜索引擎营销,费用低,见效快。付款后即可在搜索引擎提供的广<br/><br/>     告平台上进行关键字广告投放,只要广告内容不违反搜索引擎制定的相<br/><br/>     关条款,客户又付出足够多的费用,就可以在广告区域上取得较好的排<br/><br/>     名。<br/><br/>     在享受关键字广告给我们带来好处的同时,我们却不能避免其负面影<br/><br/>     响。<br/><br/>     以关键字广告的方式开展搜索引擎营销,时效是有限的,仅存在于<br/><br/>     付费推广期间。<br/><br/>     随着参与同一关键字广告投放的网站增多,每一点击所产生的费用<br/><br/>     也会变得越来越高。例如,在Google页面中,有的关键字每一点击<br/><br/>     甚至需要几十美元。<br/><br/>     不能避免无效点击。无效点击在业内已经是公开的秘密。目前除了<br/><br/>     Google能有限地进行监控以外,其他的搜索引擎都束手无策,个别<br/><br/>     搜索引擎甚至人为操纵点击数据,牟取不义之财。既然,无效点击<br/><br/>     是不能避免的,那么我们就需要为其付出高昂的代价。产生无效点<br/><br/>     击的主要原因包括以下两个。<br/><br/>     来自竞争对手的恶意点击。对于监控无效点击行为较差的搜索<br/><br/>     引擎来说,竞争对手的恶意点击所产生的费用是相当惊人的。<br/><br/>     广告与自然搜索结果混淆而导致的无效点击。每个搜索引擎都<br/><br/>     会把竞价排名与自然结果 进行区分,但不同的搜索引擎区分<br/><br/>     的形式存在着明显的差别。例如,在Google中就明显标明是赞<br/><br/>     助商链接,而在百度中则能以假乱真。<br/><br/>     自然搜索结果即按搜索引擎算法自动产生的排序结果。<br/><br/>     1<br/><br/>     11.5 搜索引擎联盟广告<br/><br/>     搜索引擎联盟广告与普通的网站联盟广告类似,合作网站在自身网站上<br/><br/>     放置广告代码后即可向网站访问者显示广告主的广告内容,然后通过统<br/><br/>     计用户的点击(即CPC)、销售(即CPS)、特定行为(即CPA)等方<br/><br/>     式与广告平台进行费用分成。搜索引擎联盟广告与普通联盟广告最大的<br/><br/>     区别在于搜索引擎联盟广告基于用户的历史搜索、访问行为而在联盟网<br/><br/>     站上向特定的用户展示其关注的广告内容(即人群定向,如图1-5所<br/><br/>     示),精准性是其他联盟广告所不具备的,主要形式有以下几种。<br/><br/>     关键字定位:根据用户的关键字搜索记录向他展示相应的广告内<br/><br/>     容。例如,我们在投放百度联盟广告时选择了关键字“数码相机”,如果某个搜索过“数码相机”的用户访问了百度联盟的网站,那么我<br/><br/>     们的广告就会向该用户进行展示。<br/><br/>     主题定位:通过对当前网页主题进行定位,展示与当前网页内容相<br/><br/>     关的广告。<br/><br/>     到访定向:针对访问过广告主网站(或网站中特定页面)的人群展<br/><br/>     示相应的广告内容。图 1-5 百度联盟推广之人群定向1.6 SEO简介<br/><br/>     通过关键字广告,很多企业都切身感受到了搜索引擎营销带来的好处,但是其高昂的费用及负面影响又让很多企业望而却步。因此,我们迫切<br/><br/>     需要另外一种成本更低、回报更高的方式来开展搜索引擎营销,这就是<br/><br/>     搜索引擎优化(SEO)。但很多人对此了解不多,甚至是一无所知。<br/><br/>     例如,我们在百度上搜索“点击成金”,结果排在第一名的是神州培训<br/><br/>     网,而不是深圳市点击成金科技有限公司的官方网站。如果排在第一名<br/><br/>     的是一个欺骗性网站,那么就会给这个公司的品牌及形象带来极大的负<br/><br/>     面影响,如图1-6所示。<br/><br/>     图 1-6 关键字“点击成金”的搜索结果<br/><br/>     尽管有的企业已经着手进行网站优化,却知之甚少,闹出了不少笑话。<br/><br/>     例如,BMW德国网站的无知,金山软件的“憨厚” ,均让人哭笑不得。<br/><br/>     BMW德国网站由于采用隐藏关键字而遭到Google惩罚,金山软件也曾采用过门页的作弊手<br/><br/>     2<br/><br/>     2段。<br/><br/>     至此,相信读者对搜索引擎优化的重要性已经有所了解。接下来,将进<br/><br/>     一步介绍与搜索引擎优化相关的内容。<br/><br/>     1.6.1 SEO基本概念<br/><br/>     SEO是Search Engine Optimization的缩写,中文为搜索引擎优化。根据<br/><br/>     操作的意图,SEO又被称为“网站优化”或者“搜索引擎最优化”。但这两<br/><br/>     个概念之间存在着本质的区别。<br/><br/>     网站优化是指在对网站进行调整时,以提高网站的用户体验、完善<br/><br/>     网站功能为根本出发点,最终提高网站的搜索引擎友好性。<br/><br/>     搜索引擎最优化则恰恰相反,以提高网站的搜索引擎友好性为根本<br/><br/>     出发点,关键时刻甚至置网站的用户体验及网站功能于不顾。<br/><br/>     仅靠上面简单的介绍,可能部分读者对搜索引擎优化的工作性质还不太<br/><br/>     了解。下面以图书管理为例,介绍一下搜索引擎优化的主要作用及意<br/><br/>     义。<br/><br/>     假设互联网是一个巨大的图书馆,那么搜索引擎就是图书管理员,而用<br/><br/>     户则是阅览者,一个网站就相当于一本书,搜索引擎优化者就相当于图<br/><br/>     书的责任编辑,他们在图书出版之前就对图书的内容进行完善,提高图<br/><br/>     书的可读性。一本图书只有当图书管理员或读者认为它有价值的时候,才会被图书馆收藏并放到相应书架的最佳位置。同样,如果一个网站要<br/><br/>     想被搜索引擎收录,那么它本身必须具备一定的价值或者得到一部分用<br/><br/>     户的肯定。<br/><br/>     图书管理员对图书的管理行为取决于他的管理水平。首先,图书管理员<br/><br/>     会根据图书的名称等信息确定图书的类别;然后,再根据图书的简介、目录、内容等判断图书的内在价值;最后,综合出版社、作者知名度等<br/><br/>     因素决定图书摆放的位置。由于阅览者对书架上每个位置的关注度是不<br/><br/>     一样的,管理员会把他认为最重要的图书放到书架中最明显的位置。这<br/><br/>     样,这本图书得到阅览的机会就会大大增加。<br/><br/>     其实图书的名称就相当于网站的名称,前言或简介就相当于首页的描<br/><br/>     述,而出版社或者作者知名度就相当于外部网站对我们网站的认可程度。如果一个网站主题明确、内容丰富、结构合理清晰,并得到大量外<br/><br/>     部权威网站的认可,那么它就可以得到更多向用户展示的机会。<br/><br/>     图书的主题、目录及内容是由作者制定的,经过与责任编缉协商、修改<br/><br/>     后完成。经过修改后的图书主题更鲜明、目录更清晰、可阅读性更高。<br/><br/>     搜索引擎优化者也一样,对网站进行综合调整以后,使得网站对于用户<br/><br/>     及搜索引擎都更加友好,从而提高网站在搜索引擎中的表现。<br/><br/>     1.6.2 SEO与搜索引擎广告的区别<br/><br/>     SEO与搜索引擎关键字广告有着本质的区别,搜索引擎优化是通过对网<br/><br/>     站进行必要的调整,提高网站的搜索引擎友好性,从而提高网站在某些<br/><br/>     关键字搜索结果中的排名。要了解SEO技术,我们首先要从了解SEO的<br/><br/>     历史开始。<br/><br/>     1.6.3 SEO发展历史<br/><br/>     互联网出现的初期,人们要在茫茫的互联网中找到所需的信息就如同大<br/><br/>     海捞针,直到搜索引擎的出现,这种情况才有所改观。例如,曾经风靡<br/><br/>     一时的目录式搜索引擎雅虎,它通过人工的方式收集网站信息,再对收<br/><br/>     集回来的网站进行分类。这样,用户在寻找信息的时候,只要浏览相应<br/><br/>     的目录或者使用雅虎的目录搜索功能即可,既快捷又准确。<br/><br/>     随着使用者的不断增加,雅虎为分类目录下的网站带去的用户越来越<br/><br/>     多。网站主显然也意识到了这一点,而且,他们还发现在分类页面中排<br/><br/>     名越靠前的网站得到用户访问的几率就越高。于是,开始对雅虎分类目<br/><br/>     录页面的排名规则进行研究,并通过相应的调整提高网站在分类页面上<br/><br/>     的排名,这就是初期的SEO。<br/><br/>     由于分类目录的排序规则十分简单,对于网站主来说并没有太大的考<br/><br/>     验。因此,真正意义上的SEO技术出现在全文搜索引擎被广泛应用以<br/><br/>     后。大概在20世纪90年代后期,以Google为代表的全文搜索引擎日渐强<br/><br/>     大,用户数量也逐渐赶超雅虎这样的分类目录。因此,网站主也把战斗<br/><br/>     阵地从分类目录转移至全文搜索引擎中。然而,全文搜索引擎算法十分<br/><br/>     复杂,于是这些网站主就聚集起来讨论和研究。这样,SEO技术就在探<br/><br/>     索中诞生了。<br/><br/>     由于经济、文化等各方面的差异,搜索引擎优化技术在国内出现的时间要比国外晚得多,发展也相对缓慢。<br/><br/>     大约在2003年左右,国内出现了第一批搜索引擎优化爱好者,他们聚集<br/><br/>     在少数几个论坛上发表各自的见解,分享搜索引擎优化的经验,但以搜<br/><br/>     索引擎优化作为职业的人还是屈指可数。<br/><br/>     2004年至2005年中,搜索引擎优化技术得到广泛的传播。在这段时间<br/><br/>     里,不少个人或者公司开始尝试商业化运作,整个行业呈现出一片“繁<br/><br/>     荣”的景象。但是,由于大部分从员人业的贪婪及无知,整个行业陷入<br/><br/>     了一片混乱,搜索引擎优化也成为了作弊的代名词。<br/><br/>     从2005年下半年开始,由于搜索引擎算法的改进(例如,Google的佛罗<br/><br/>     里达及阿斯汀更新),搜索引擎优化行业随即掀起一次空前的大洗礼,滥竽充数者在这场竞争中被无情地淘汰,整个行业得到了一定的净化。<br/><br/>     但经历近两年的摧残,整个行业已经伤痕累累!<br/><br/>     2005年下半年至2006年相对平静,整个行业在一定程度上得到了休养生<br/><br/>     息,从而渐渐恢复该有的生机,搜索引擎优化也渐渐地得到了更多人的<br/><br/>     认可。<br/><br/>     2007年至2008年,“黑帽SEO”手法层出不穷,整个行业随即又陷入了一<br/><br/>     片混乱,但由于搜索引擎算法已经相当完善,尽管受到“黑帽SEO”的困<br/><br/>     扰,但没有出现像2005年那样的惨况。<br/><br/>     自2009年开始,搜索引擎优化行业开始慢慢地朝着正规化、规模化的方<br/><br/>     向发展,涌现出不少实力强大的服务提供商,更多的人开始正确地认识<br/><br/>     和对待SEO。<br/><br/>     2013年,随着搜索引擎技术的不断改进与完善,过去所谓的优化方法或<br/><br/>     手段已不大奏效,甚至被列为违规。因此,SEO逐渐回归本质,即以提<br/><br/>     高网站的用户体验为基础,最终达到提高网站搜索引擎友好性的目的。<br/><br/>     1.6.4 SEO优缺点<br/><br/>     SEO能在与关键字广告的竞争中脱颖而出,受到广大客户的追捧,必定<br/><br/>     有其魅力所在。作为主要的搜索引擎营销方式,SEO除了具备搜索引擎<br/><br/>     营销的优点外,还有以下独特的优势。成本较低。从某个角度上看,SEO是一种“免费”的搜索引擎营销方<br/><br/>     式。对于个人网站来说,只要站长掌握一定的搜索引擎优化技术即<br/><br/>     可。而对于企业来说,成本主要来自从事搜索引优化员工的薪酬或<br/><br/>     雇用专业搜索引擎优化公司所花的费用。<br/><br/>     持久性。一般情况下,采用正规方法进行优化的网站,排名效果会<br/><br/>     比较稳定。除非搜索引擎算法发生重大改变或者强大的竞争对手后<br/><br/>     来居上,否则不会有太大的变化。<br/><br/>     不需要承担无效点击的风险。不管点击网站的是潜在客户还是竞<br/><br/>     争对手,我们都无需为此而付出任何代价。<br/><br/>     尽管搜索引擎优化具备这么多的优势,但它毕竟是依附搜索引擎生存<br/><br/>     的,因此也会存在一些不可克服的缺点,主要表现在以下几个方面。<br/><br/>     施工时间长。从开始对网站进行优化到实现关键字的目标排名,一<br/><br/>     般需要2~6个月。对于竞争十分激烈的关键字,还可能需要一年甚<br/><br/>     至更长的时间(网站优化时间的长短主要取决于所选择的关键字的<br/><br/>     竞争激烈程度、优化者水平及搜索引擎等一些不确定的因素)。<br/><br/>     不确定性。搜索引擎优化人员并不是搜索引擎的开发者,与搜索引<br/><br/>     擎也没有什么密切关系,所以,并不能向任何人保证在指定时间<br/><br/>     内,实现某一关键字的指定排名。<br/><br/>     被动性。搜索引擎会不定期改进算法(甚至为了自身利益而对某些<br/><br/>     网站或者行业进行人为干预,以迫使这些用户投放关键字广告),这就要求我们要对网站进行及时调整以迎合新算法,这样才能长久<br/><br/>     享受搜索引擎带来的好处。<br/><br/>     1.6.5 SEO应用领域<br/><br/>     1. 企业网站<br/><br/>     企业网站通过优化以后,可以大大增加了向目标客户展示产品或者服务<br/><br/>     的机会,从而提高企业的影响力,提升品牌的知名度。例如,某个生产<br/><br/>     手机的企业,如果用户在搜索“手机”的时候,该企业的网站能够出现在<br/><br/>     前几位,那么就可以得到更多用户的点击,而这些用户可能是竞争对<br/><br/>     手、潜在客户或者相关信息需求者。2. 电子商务型网站<br/><br/>     电子商务型网站经过优化后可以通过搜索引擎向更多的潜在消费者推销<br/><br/>     自身的产品,从而节省巨额的广告费用,提高产品销量。<br/><br/>     3. 内容型网站<br/><br/>     资讯内容型网站经过优化后,可以大大提高网站的流量,从而进一步蚕<br/><br/>     食强者的市场,最终后来居上,成为行业的领先者。<br/><br/>     1.6.6 SEO主要工作<br/><br/>     SEO的主要工作分为内部优化及外部优化,如图1-7所示。从网站内部<br/><br/>     出发,对网站的基本要素(例如,网站结构、页面结构、关键字分布<br/><br/>     等)进行适当的调整;如果经过调整,网站在搜索引擎中的表现达到了<br/><br/>     我们的预期效果,则内部优化工作就基本完成;否则,我们还需要反复<br/><br/>     地对网站进行调整,直至达到预期效果为止。<br/><br/>     图 1-7 网站优化流程<br/><br/>     外部优化工作主要是围绕增强外部链接关系而展开的,这项工作必须贯彻优化的全过程,例如,交换友情链接、登录分类目录等。<br/><br/>     1.6.7 SEO宗旨<br/><br/>     SEO工作应该以用户为中心,围绕提高用户体验、完善网站功能而展<br/><br/>     开,不能为了优化而优化。<br/><br/>     你对网站调整是否只是为了优化而优化呢?反问一下自己:如果不是为<br/><br/>     了搜索引擎,我会这样做吗?这样做能给用户带来什么好处吗?这样做<br/><br/>     会影响用户体验吗?<br/><br/>     1.6.8 SEO职业道德<br/><br/>     从事搜索引擎优化的人员是否具备良好的职业道德是决定网站优化成败<br/><br/>     的关键因素之一。在对网站进行优化的时候,应该以满足用户需求为根<br/><br/>     本出发点,不做任何欺骗搜索引擎的行为,这样才有机会长期享受搜索<br/><br/>     引擎带来的好处。第 2 章 搜索引擎工作原理<br/><br/>     本章主要介绍搜索引擎的工作流程及原理,覆盖了从搜索引擎对页<br/><br/>     面的收录、索引、分析、排序到关键字查询的全过程。此外,还讲<br/><br/>     述了搜索引擎各主要工作与搜索引擎优化之间的对应关系,为学习<br/><br/>     搜索引擎优化提供了理论根据。<br/><br/>     本章内容<br/><br/>     搜索引擎发展历史<br/><br/>     搜索引擎分类<br/><br/>     搜索引擎工作原理<br/><br/>     搜索引擎特色算法<br/><br/>     搜索引擎介绍2.1 搜索引擎发展历史<br/><br/>     随着互联网信息的爆炸性增长,用户想要在互联网中寻找到所需信息就<br/><br/>     如同大海捞针,这时,为满足大众信息检索需求的专业搜索引擎应运而<br/><br/>     生。<br/><br/>     现实意义上的搜索引擎是1990年由蒙特利尔大学学生Alan Emtage开发<br/><br/>     的Archie。虽然当时World Wide Web还未出现,但网络中文件传输已经<br/><br/>     相当频繁,而且由于大量的文件散布在各个不同的FTP服务器中,形成<br/><br/>     了巨量的信息源。Alan的Archie依靠脚本程序搜索网络上的文件,再对<br/><br/>     其进行索引,供使用者查询。由于Archie深受用户欢迎,受其启发,美<br/><br/>     国内华达高教系统计算服务中心于1993年开发了另一个类似的搜索工<br/><br/>     具,该搜索工具除了能索引文件外,还能检索网页。<br/><br/>     当时,“机器人”一词十分流行,“机器人”是指快速不间断地执行某项任<br/><br/>     务的程序。由于专门用于检索信息的机器人程序像蜘蛛一样在网络间爬<br/><br/>     来爬去,因此,搜索引擎机器人程序也被称为蜘蛛程序。世界上第一个<br/><br/>     监测互联网发展规模的机器人程序是Matthew Gray开发的World wide<br/><br/>     Web Wanderer。刚开始它只用于统计互联网上服务器的数量,后来发展<br/><br/>     成为能够检索网站域名。与Wanderer相对应,Martin Koster于1993年10<br/><br/>     月创建了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用机器人程<br/><br/>     序,而是靠网站主动提交信息来建立自己的链接索引,类似雅虎分类目<br/><br/>     录。<br/><br/>     随着互联网的快速发展,检索新出现的网页变得越来越困难,因此,在<br/><br/>     Matthew Gray的Wanderer基础上,将传统的蜘蛛程序作了改进。其设想<br/><br/>     是,既然所有网页都可能存在指向其他网站的链接,那么从跟踪一个网<br/><br/>     站的链接开始,就有可能检索整个互联网。到1993年年底,一些基于此<br/><br/>     原理的搜索引擎开始纷纷涌现,其中以JumpStation、The World Wide<br/><br/>     Web Worm(Goto的前身,也就是今天Overture,已被雅虎收购),和<br/><br/>     Repository-Based Software Engineering (RBSE) spider最负盛名。然而<br/><br/>     JumpStation和WWW Worm只是以搜索工具在数据库中找到匹配信息的<br/><br/>     先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个<br/><br/>     在搜索结果排列中引入关键字串匹配程度概念的搜索引擎。现代意义上<br/><br/>     的搜索引擎最早出现于1994年7月。当时,Michael Mauldin将John<br/><br/>     Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。同年4月,斯坦福大学的两名博士生,David Filo和美籍华人杨<br/><br/>     致远(Jerry Yang)共同创办了超级目录索引雅虎,并成功地使搜索引<br/><br/>     擎的概念深入人心。从此搜索引擎进入了高速发展的时期。目前,互联<br/><br/>     网上有名有姓的搜索引擎已达数百家,其检索的信息量也今非昔比。例<br/><br/>     如,Google号称数据库中存放的网页已达40亿!2.2 搜索引擎分类<br/><br/>     搜索引擎按照工作方式可以分为三类,分别是全文搜索引擎、目录索引<br/><br/>     类搜索引擎及元搜索引擎。<br/><br/>     2.2.1 全文搜索引擎<br/><br/>     全文搜索引擎是名副其实的搜索引擎,国外具代表性的全文搜索引擎有<br/><br/>     Google、雅虎,而国内比较著名的全文搜索引擎有百度等。它们都通过<br/><br/>     从互联网上提取各网站的信息(以网页文字为主)建立数据库,再从这<br/><br/>     个数据库中检索与用户查询条件相匹配的相关记录,最后把这些记录按<br/><br/>     照一定的排列顺序返回给用户。<br/><br/>     从搜索结果来源的角度,全文搜索引擎拥有自己的检索程序<br/><br/>     (Indexer),俗称蜘蛛程序或机器人程序,并自行建立网页数据库,搜<br/><br/>     索结果就直接从自身的数据库中调用。<br/><br/>     2.2.2 目录搜索引擎<br/><br/>     目录搜索引擎虽然具备搜索功能,但严格地说并不是搜索引擎,仅仅是<br/><br/>     按照类别向用户展示相关网站列表的普通网站而已。目录搜索引擎中最<br/><br/>     具代表性的要数雅虎了(雅虎通过一轮番的并购及研发,已经跻身顶尖<br/><br/>     全文搜索引擎行列),其他还有ODP (即DMOZ)等。<br/><br/>     2.2.3 元搜索引擎<br/><br/>     元搜索引擎在接受用户查询请求的时候,会同时在其他多个搜索引擎上<br/><br/>     进行搜索,并将结果返回给用户,著名的元搜索引擎有Dogpile、Vivisimo等。在搜索结果排列方面,有的直接按照来源排列搜索结果,例如Dogpile;有的则按照自定的规则将结果重新排列组合后再返回给<br/><br/>     用户,例如Vivisimo。<br/><br/>     除上述三大类搜索引擎以外,还有以下两种非主流形式的搜索引擎。<br/><br/>     集合式搜索引擎。这一类搜索引擎与元搜索引擎类似,但区别在于<br/><br/>     不是同时调用多个搜索引擎进行搜索,而只是让用户从提供的搜索引擎中进行选择,例如,HotBot在2002年年底推出的搜索引擎。<br/><br/>     免费链接列表(Free For All Links,FFA)。也就是常见的链接交<br/><br/>     换系统,这类网站一般只简单地排列出网站的链接条目,少部分还<br/><br/>     会有简单的分类目录,不过规模比起雅虎这样的人工分类目录要小<br/><br/>     得多。2.3 搜索引擎工作原理<br/><br/>     搜索引擎优化的一个主要任务就是提高网站的搜索引擎友好性,因此,搜索引擎优化的每个环节都会与搜索引擎工作流程存在必然的联系,研<br/><br/>     究搜索引擎优化实际上就是对搜索引擎工作过程进行逆向推理。因此,学习搜索引擎优化应该从了解搜索引擎的工作原理开始。<br/><br/>     搜索引擎的主要工作包括:页面抓取、页面分析、页面排序及关键字查<br/><br/>     询。<br/><br/>     页面抓取:就是指搜索引擎通过蜘蛛程序在互联网上抓取页面并进<br/><br/>     行存储的过程,为搜索引擎开展各项工作提供了数据支持。<br/><br/>     页面分析:主要是指对抓取回来的网页进行信息提取处理,包括提<br/><br/>     取页面的正文信息,并对正文信息进行分词等,为后续建立关键字<br/><br/>     索引及关键字倒排索引提供基础数据。<br/><br/>     页面排序:搜索引擎结合页面的内外部因素计算出页面与某个关键<br/><br/>     字的相关程度,从而得到与该关键字相关的页面排序列表。<br/><br/>     关键字查询:搜索引擎接收来自用户的查询请求,并对查询信息进<br/><br/>     行切词及匹配,再向用户返回相应的页面排序列表。<br/><br/>     本章接下来将向读者介绍搜索引擎各个主要工作的流程、原理及作用,以及在对网站进行优化时应该如何应对。<br/><br/>     2.3.1 搜索引擎抓取策略<br/><br/>     搜索引擎对网页的抓取实际上就是在互联网上进行数据采集 ,这是搜<br/><br/>     索引擎最基础的工作。搜索引擎的数据采集能力直接决定了搜索引擎可<br/><br/>     提供的信息量及对互联网覆盖的范围,从而影响搜索引擎查询结果的质<br/><br/>     量。因此,搜索引擎总是想方设法地提高它的数据采集能力。<br/><br/>     搜索引擎利用数据采集程序在互联网上抓取数据,我们称这个数据采集程序为蜘蛛程序或者<br/><br/>     机器人程序。<br/><br/>     本节首先会介绍搜索引擎抓取页面的流程及方式,再介绍搜索引擎对已<br/><br/>     1<br/><br/>     1抓取页面的存储及维护方式。<br/><br/>     1. 页面抓取流程<br/><br/>     在互联网中,URL是每个页面的入口地址,搜索引擎蜘蛛程序就是通过<br/><br/>     URL抓取到页面的。搜索引擎蜘蛛程序从原始URL列表出发,通过URL<br/><br/>     抓取并存储原始页面;同时,提取原始页面中的URL资源并加入到URL<br/><br/>     列表中。如此不断地循环,就可以从互联网中获取到足够多的页面,如<br/><br/>     图2-1所示。<br/><br/>     图 2-1 搜索引擎抓取页面简单流程<br/><br/>     URL是页面的入口,而域名则是一个网站的入口。搜索引擎蜘蛛程序通<br/><br/>     过域名进入网站,从而展开对网站页面的抓取。换言之,搜索引擎要在<br/><br/>     互联网上抓取到页面的首要任务就是建立一个足够大的原始域名列表,再通过域名进入相应的网站,从而抓取这个网站中的页面。<br/><br/>     而对于网站来说,如果想要被搜索引擎收录,首要的条件就是加入搜索<br/><br/>     引擎的域名列表。下面向大家介绍两种常用的加入搜索引擎域名列表的<br/><br/>     方法。<br/><br/>     第一,利用搜索引擎提供的网站登录入口,向搜索引擎提交网站的域<br/><br/>     名。例如,Google的网站登录地址是http:www.google.comaddurl 。对<br/><br/>     于提交的域名列表,搜索引擎只会定期进行更新。因此,这种做法比较<br/><br/>     被动,从域名提交到网站被收录花费的时间也比较长。以下是主流中文<br/><br/>     搜索引擎的网站提交入口。<br/><br/>     在实际中,我们只需要提交网站的首页地址或者网站的域名,搜索引擎就会跟踪首页中的链<br/><br/>     2<br/><br/>     2接去抓取其他页面。<br/><br/>     百度:http:www.baidu.comsearchurl_submit.htm。<br/><br/>     360:http:info.so.360.cnsite_submit.html。<br/><br/>     搜狗:http:www.sogou.comfeedbackurlfeedback.php。<br/><br/>     Google:http:www.google.comaddurl(需要注册使开通站长工具<br/><br/>     才能提交)。<br/><br/>     第二,通过与外部网站建立链接关系,使搜索引擎可以通过外部网站发<br/><br/>     现我们的网站,从而实现对网站的收录。这种做法主动权掌握在我们自<br/><br/>     己的手里(只要我们拥有足够多高质量的链接即可),而且收录速度也<br/><br/>     比向搜索引擎主动提交要快得多。视乎外部链接的数量、质量及相关<br/><br/>     性,一般情况下,2~7天左右就会被搜索引擎收录。<br/><br/>     2. 页面抓取<br/><br/>     通过上面的介绍,相信读者已经掌握了加快网站被搜索引擎收录的方<br/><br/>     法。然而,怎样才能提高网站中页面被收录的数量呢?这就要从了解搜<br/><br/>     索引擎收录页面的工作原理开始。<br/><br/>     如果把网站页面组成的集合看作是一个有向图,从指定的页面出发,沿<br/><br/>     着页面中的链接,按照某种特定的策略对网站中的页面进行遍历。不停<br/><br/>     地从URL列表中移出已经访问过的URL,并存储原始页面,同时提取原<br/><br/>     始页面中的URL信息;再将URL分为域名及内部URL两大类,同时判断<br/><br/>     URL是否被访问过,将未被访问过的URL加入URL列表中。递归地扫描<br/><br/>     URL列表,直至耗尽所有URL资源为止。经过这些工作,搜索引擎就可<br/><br/>     以建立庞大的域名列表、页面URL列表及存储足够多的原始页面。<br/><br/>     3. 页面抓取方式<br/><br/>     通过以上内容,大家已经了解了搜索引擎抓取页面的流程及原理。然<br/><br/>     而,在互联网数以亿计的页面中,搜索引擎怎样才能从中抓取到更多相<br/><br/>     对重要的页面呢?这就涉及搜索引擎的页面抓取方式问题。<br/><br/>     页面抓取方式是指搜索引擎抓取页面时所使用的策略,目的是为了能在<br/><br/>     互联网中筛选出更多相对重要的信息。页面抓取方式的制定取决于搜索引擎对网站结构的理解。如果使用相同的抓取策略,搜索引擎在同样的<br/><br/>     时间内可以在某一网站中抓取到更多的页面资源,则会在该网站上停留<br/><br/>     更长的时间,抓取的页面数自然也就更多。因此,加深对搜索引擎页面<br/><br/>     抓取方式的认识,有利于为网站建立友好的结构,增加页面被抓取的数<br/><br/>     量。<br/><br/>     常见的搜索引擎抓取页面的方式主要有广度优先、深度优先、大站优<br/><br/>     先、高权重优先、暗网抓取及用户提交等,接下来将详细介绍这几种页<br/><br/>     面抓取方式及其优缺点。<br/><br/>     广度优先<br/><br/>     如果把整个网站看作是一棵树,首页就是根,每个页面就是叶子。<br/><br/>     广度优先是一种横向的页面抓取方式,先从树的较浅层开始抓取页<br/><br/>     面,直至抓取完同一层次上的所有页面后才进入下一层。因此,在<br/><br/>     对网站进行优化的时候,我们应该把网站中相对重要的信息展示在<br/><br/>     层次较浅的页面上(例如,在首页上推荐一些热门产品或者内<br/><br/>     容)。因此,通过广度优先的抓取方式,搜索引擎就可以优先抓取<br/><br/>     到网站中相对重要的页面。<br/><br/>     我们来看一下广度优先的抓取流程。首先,搜索引擎从网站的首页<br/><br/>     出发,抓取首页上所有链接指向的页面,形成页面集合(A),并<br/><br/>     解析出集合(A)中所有页面的链接;再跟踪这些链接抓取下一层<br/><br/>     的页面,形成页面集合(B)。就这样递归地从浅层页面中解析出<br/><br/>     链接,从而抓取深层页面,直至满足了某个设定的条件后才停止抓<br/><br/>     取进程,如图2-2所示。图 2-2 广度优先抓取流程<br/><br/>     深度优先<br/><br/>     与广度优先的抓取方式恰恰相反,深度优先是一种纵向的页面抓取<br/><br/>     方式,首先跟踪的是浅层页面中的某一个链接,从而逐步抓取深层<br/><br/>     次页面,直至抓取完最深层次的页面后才返回浅层页面继续向深层<br/><br/>     页面抓取。使用深度优先的抓取方式,搜索引擎可以抓取到网站中<br/><br/>     比较隐蔽、冷门的页面,这样才能满足更多用户的需求。<br/><br/>     我们来看一下深度优先的抓取流程。首先,搜索引擎会抓取网站的<br/><br/>     首页,并提取首页中的链接;再沿着其中的一个链接抓取到页面1-<br/><br/>     1,同时提取其中的链接;接着,沿着页面1-1中的一个链接A-1抓<br/><br/>     取到页面2-1,同时提取其中的链接;再沿着页面2-1中的一个链接<br/><br/>     B-1继续抓取更深一层的页面。这样递归地执行,直至抓取到网站<br/><br/>     最深层的页面或者满足了某个设定的条件才转回到首页继续抓取,如图2-3所示。图 2-3 深度优先抓取流程<br/><br/>     大站优先<br/><br/>     由于大型网站比小型网站更有可能提供更多更有价值的内容,因<br/><br/>     此,如果搜索引擎优先抓取大型网站中的网页,那么就可以在更短<br/><br/>     的时间内为用户提供更有价值的信息。大站优先,顾名思义就是对<br/><br/>     互联网中大型网站的页面进行优先抓取,是搜索引擎中的一种信息<br/><br/>     抓取策略。<br/><br/>     怎样识别所谓的大型网站呢?一是前期人工整理大站种子资源,通<br/><br/>     过大站发现其他的大站;二是对已经索引的网站进行系统的分析,从而识别那些内容丰富、规模较大、信息更新频繁的网站。<br/><br/>     在完成大站识别后,搜索引擎就会对URL资源列表中大站的页面进<br/><br/>     行优先抓取。这也是为什么大型网站往往会比小站内容抓取更及时<br/><br/>     的原因之一。<br/><br/>     高权重优先<br/><br/>     权重,简单地说就是搜索引擎对网页重要性的一种评定。所谓的重要性归根到底就是网站或者网页的信息价值。<br/><br/>     高权重优先是对URL资源列表中的高权重网页进行优先抓取的网页<br/><br/>     抓取策略。网页权重(如Google PageRank值)高低往往是由诸多<br/><br/>     因素决定的,例如,网页的外部链接数量及质量。如果下载一个<br/><br/>     URL就重新计算所有已下载URL资源的权重值,这样的效率是极其<br/><br/>     低下的,显然是不现实的。所以,搜索引擎会倾向于每下载若干<br/><br/>     URL资源后就对已下载的URL进行权重计算(即不完全的权重计<br/><br/>     算),以此来确定这些URL资源所对应页面的权重值,从而对较高<br/><br/>     权重值的网页进行优先抓取。<br/><br/>     由于权重计算是基于部分数据而得出的结果,可能会与真实权重有<br/><br/>     较大出入(即失真)。因此,这种高权重优先的抓取策略也有可能<br/><br/>     会对次要页面进行优先抓取。<br/><br/>     暗网抓取<br/><br/>     暗网(又称作深网、不可见网、隐藏网)是指那些存储在网络数据<br/><br/>     库里、不能通过超链接访问而需要通过动态网页技术或者人工发起<br/><br/>     查询访问的资源集合,不属于那些可以被标准搜索引擎索引的信<br/><br/>     息。<br/><br/>     1. 查询组合<br/><br/>     暗网数据普遍存在于大型网站中,最常见的表现形式就是网站的搜<br/><br/>     索功能(包括组合条件查询及文本检索)。例如,旅游网站的机票<br/><br/>     数据,由于数据量极其巨大,通过链接的方式显示所有的机票信息<br/><br/>     是不现实的。因此,该类网站通常会提供相应的搜索功能供用户使<br/><br/>     用,以便用户能够快速检索个人化的需求信息。图2-4是某旅游垂<br/><br/>     直网站的机票搜索功能,用户可以通过航程类型、出发城市、到达<br/><br/>     城市、出发时间及返回时间等多条件组合来检索机票信息。图 2-4 机票搜索工具<br/><br/>     在互联网上,暗网数据量是极其巨大的,但不是所有的暗网数据都<br/><br/>     是有价值的,这就要求搜索引擎需要有特殊的蜘蛛程序对这些暗网<br/><br/>     数据进行挖掘及识别。<br/><br/>     例如,图2-5所示是某人才网的高级搜索功能,至少包含了8个查询<br/><br/>     条件,如果搜索引擎将每一个条件组成不同的查询组合提交给网<br/><br/>     站,这样不但会给网站的服务器带来极大的压力,而且对于蜘蛛程<br/><br/>     序来说也是一个灾难(暂且不论每种条件组合的查询条件得到的查<br/><br/>     询结果能得到有价值的信息)。图 2-5 职位搜索工具1<br/><br/>     因此,搜索引擎通常只会对有可能返回有价值信息的查询条件进行<br/><br/>     组合。如图 2-6所示,对于一些主要的条件如行业分类、职位分<br/><br/>     类、工作地点进行组合查询即可找到该站的有价值信息。<br/><br/>     图 2-6 职位搜索工具2<br/><br/>     2. 文本检索<br/><br/>     对于大多数网站而言,文本检索(即站内搜索)是最常见的搜索功<br/><br/>     能。因此,文本检索也是最常见的暗网数据获取方式之一。图2-7<br/><br/>     所示为当当网的站内搜索功能,搜索引擎通过人工整理一些种子关<br/><br/>     键字,向目标网站提交进行查询,除了抓取查询结果页面外,还会<br/><br/>     从已抓取回来的页面中提取出新的关键字,进而形成新的待查询关<br/><br/>     键字列表。图 2-7 当当网搜索栏<br/><br/>     用户提交<br/><br/>     为了抓取更多的网页,搜索引擎还允许网站管理员主动提交页面<br/><br/>     (如Sitemap方式提交)。网站管理员只需把网站中页面的URL按<br/><br/>     照指定的格式制作成文件,提交给搜索引擎,搜索引擎就可以通过<br/><br/>     该文件对网站中的页面进行抓取及更新。<br/><br/>     这种由网站管理员主动提交页面的方式大大提高了搜索引擎抓取页<br/><br/>     面的效率,也大大增加了网站页面被抓取的数量(目前主流的搜索<br/><br/>     引擎都支持这种页面抓取方式,如Google、百度及搜狗等)。<br/><br/>     说明 为了提高抓取页面的效率及质量,搜索引擎会结合多种策略<br/><br/>     去抓取页面。例如,先使用广度优先的方式,把抓取范围铺得尽可<br/><br/>     能宽,获取尽可能多的重要页面;再使用深度优先的方式,抓取更<br/><br/>     多隐蔽的页面;最后,结合暗网抓取、用户提交等方式抓取那些被<br/><br/>     遗漏的页面。<br/><br/>     4. 如何避免重复性抓取<br/><br/>     在互联网中,信息重复是在所难免的。然而,搜索引擎是怎样识别重复<br/><br/>     信息的呢?怎样判断哪些网页的信息是原创的,哪些是复制的?又会认<br/><br/>     为哪些重复的信息是有价值的,哪些是可以舍弃的?本节将会给出这些<br/><br/>     问题的答案。<br/><br/>     网站中的重复信息主要包括转载内容及镜像内容两大类。搜索引擎在对<br/><br/>     页面进行分析的时候,必须具备识别重复信息的能力。因为大量的重复<br/><br/>     信息不但占用巨大的服务器硬盘空间,而且还会增加用户寻找信息的时<br/><br/>     间,降低用户体验。但这并不意味着所有重复信息都是没价值的,搜索<br/><br/>     引擎认为转载内容不如原创内容重要,赋予原创内容页面更高的权重,而镜像内容则几乎忽略。<br/><br/>     转载页面<br/><br/>     转载页面是指那些与原创页面正文内容 相同或相近的页面。然<br/><br/>     而,搜索引擎如何识别转载页面呢?首先,它把网页正文内容分<br/><br/>     成N个区域并进行比较,如果其中有M个区域(M是搜索引擎指定<br/><br/>     3的一个阈值)是相同或者相似的,则认为这些页面互为转载页面。<br/><br/>     如图2-8所示,页面1与页面2是不同网站上的两个页面。其中,框<br/><br/>     中的A、B分别是两个不同页面上的正文内容。为了识别这两个页<br/><br/>     面是否互为转载页面,搜索引擎先把这两个页面的正文内容分成4<br/><br/>     个区域进行比较。假设这4个区域中有3个是完全相同或者相似的,那么就认为这两个页面是互为转载的。<br/><br/>     图 2-8 页面正文内容对比<br/><br/>     在确定页面的互为转载关系后,接下来,搜索引擎再结合页面的最<br/><br/>     后修改时间(搜索引擎在抓取页面时已经存储的附加信息,详见后<br/><br/>     面“页面存储”的内容)、页面权重等因素判断原创页面与转载页<br/><br/>     面。<br/><br/>     镜像页面<br/><br/>     内容完全相同的页面互为镜像页面。要判断页面是否互为镜像页<br/><br/>     面,搜索引擎首先把这些页面分成N个区域进行比较,如果这N个<br/><br/>     区域的内容完全一样,则认为这些页面互为镜像页面。然后,再综<br/><br/>     合多项因素(例如页面权重值、页面最后修改时间等)来识别哪个<br/><br/>     是源页面,哪个是镜像页面。<br/><br/>     如图2-9所示,页面1及页面2是不同网站上的两个页面。把这两个页面分成三个区域(即A-1、A-2、A-3与B-1、B-2、B-3)进行比<br/><br/>     较,如果这三个区域内容完全一样,则认为这两个网页互为镜像页<br/><br/>     面。<br/><br/>     图 2-9 页面对比<br/><br/>     镜像网站<br/><br/>     狭义上的镜像网站是指内容完全相同的网站,形成镜像网站主要有<br/><br/>     两种情况:第一种是多个域名或IP指向同一服务器的同一个物理目<br/><br/>     录;另外一种是整个网站内容被复制到使用不同域名或者不同IP的<br/><br/>     服务器上。<br/><br/>     为了识别站点间是否互为镜像网站,搜索引擎首先判断这些网站的<br/><br/>     首页以及与首页直接链接的页面是否互为镜像页面。如果是,则互<br/><br/>     为镜像网站。然后,再综合多项因素(例如网站权重值、建立时间<br/><br/>     等)来识别哪个是源网站,哪个是镜像网站。这样,以后抓取页面<br/><br/>     的时候就集中在源网站中进行,这也是为什么搜索引擎对于镜像网<br/><br/>     站只抓取极少页面甚至是不抓取的原因。<br/><br/>     搜索引擎通过算法消除页面中的辅助信息(如导航栏、图片等)后,就得到页面的正文内<br/><br/>     容。<br/><br/>     5. 网页更新策略<br/><br/>     3由于搜索引擎不可能一次性抓取到网站中所有的页面,而且网站中页面<br/><br/>     的数量也会不断地变化,内容也在不断地更新,因此,搜索引擎还需要<br/><br/>     对已经抓取的页面进行维护、更新,以便能及时获取页面中最新的信<br/><br/>     息,抓取更多的新页面。常见页面维护方式包括:定期抓取、增量抓<br/><br/>     取、分类定位抓取、历史更新策略及用户体验策略。<br/><br/>     定期抓取<br/><br/>     定期抓取也称为周期性抓取,即搜索引擎周期性地对网站中已经抓<br/><br/>     取的页面进行全面更新。更新的时候,把抓取到的新页面替换原有<br/><br/>     的旧页面,删除不存在的页面,并存储新发现的页面。周期性更新<br/><br/>     针对的是全部已抓取的页面,因此更新周期会比较长。例如,Google一般是30~60天才会对已抓取的页面进行更新。<br/><br/>     定期抓取算法的实现相对简单。由于每次更新涉及到网站中所有已<br/><br/>     经抓取的页面,因此页面权重的再分配也是同步进行的。这适用于<br/><br/>     维护页面比较少、内容更新缓慢的网站,例如普通的企业网站。但<br/><br/>     是,由于更新周期十分漫长,就不能及时向用户反映更新期间页面<br/><br/>     的变化情况。例如,某个页面的内容更新以后,至少需要30~60天<br/><br/>     才能在搜索引擎上有所体现。<br/><br/>     增量抓取<br/><br/>     增量抓取是通过对已抓取的页面进行定时监控,实现对页面的更新<br/><br/>     及维护。但是,对网站中的每个页面都进行定时监控是不现实的。<br/><br/>     基于重要页面携带重要内容的思想以及8020法则 ,搜索引擎只需<br/><br/>     对网站中部分重要页面进行定时的监控,即可获取网站中相对重要<br/><br/>     的信息。<br/><br/>     因此,增量抓取只针对网站中某些重要的页面,而非所有已经抓取<br/><br/>     的页面,这也是为什么搜索引擎对重要页面的更新周期会更短的原<br/><br/>     因。例如,内容经常更新的页面,搜索引擎也会经常对其进行更<br/><br/>     新,从而可以及时发现新内容、新链接,并删除不存在的信息。<br/><br/>     由于增量抓取是在原有页面的基础上进行的,因此会大大缩减搜索<br/><br/>     引擎的抓取时间,还可以及时向用户展示页面中最新的内容。<br/><br/>     分类定位抓取<br/><br/>     4与增量抓取由页面重要性决定不同,分类定位抓取是指根据页面的<br/><br/>     类别或性质而制定相应更新周期的页面监控方式。例如,新闻资讯<br/><br/>     类页面的更新周期可以精确到每分钟,而下载类页面的更新周期就<br/><br/>     可以定为一天或更长。<br/><br/>     分类定位抓取对不同类别的页面进行分开处理,这样就可以节省大<br/><br/>     量的抓取时间,并大大提高页面内容的实时性,增强页面抓取的灵<br/><br/>     活性。但是,按照类别制定页面更新周期的方式比较笼统,很难跟<br/><br/>     踪页面的更新情况。因为即使是相同类别的页面,在不同的网站上<br/><br/>     内容的更新周期也会存在很大的差别。例如新闻类页面,在大型门<br/><br/>     户网站中内容的更新速度就会比其他小型网站快得多。所以,还需<br/><br/>     要结合其他的方式(例如增量抓取等)对页面进行监控和更新。<br/><br/>     实际上,搜索引擎对网站中页面的维护也是结合多种方式进行的,相当于间接为每一个页面选择最合适的维护方式。这样,既可以减<br/><br/>     少搜索引擎的负担,又可以为用户提供及时的信息。<br/><br/>     例如,一个网站中会存在多种不同性质的页面,常见的包括:首<br/><br/>     页、论坛页面、内容页面等。对于更新比较频繁的页面(例如首<br/><br/>     页),可以使用增量抓取方式对其进行监控,这样就可以对网站中<br/><br/>     相对重要的页面进行及时更新;而对于实时性非常高的论坛页面,则可以采用分类定位的抓取方式;为了防止遗漏网站中的某些页<br/><br/>     面,还需要采用定期抓取的方式。<br/><br/>     历史更新频率策略<br/><br/>     历史更新频率策略基于这样一种思想:某个网页在过去某段时间内<br/><br/>     频繁更新,那么在将来的某个时间里也可能会频繁更新。例如,对<br/><br/>     于某网站的首页,通过对它进行的监控可以分析出它的内容更新规<br/><br/>     律,搜索引擎就可以据此调整对它的抓取频率及时间点,从而及时<br/><br/>     获得网页中的最新内容。<br/><br/>     用户体验策略<br/><br/>     所谓的用户体验策略是指为了提高搜索引擎用户体验而制定的针对<br/><br/>     性的网页更新策略。衡量搜索引擎用户体验有众多指标,而网页更<br/><br/>     新的及时性是其中一项重要因素。对于搜索引擎中的关键字搜索结果,用户通常只会点击排名前30的<br/><br/>     网页。因此,只要及时更新排名前30的网页,即可节省搜索引擎的<br/><br/>     资源,提高重要网页的更新频率,也可满足绝大部分用户获取信息<br/><br/>     的需求。<br/><br/>     8020法则是意大利著名经济学家维尔弗雷德·帕累托发现的,其核心思想是20%的活动能产生<br/><br/>     满足80%需求的物质。例如,20%的产品或者服务创造了80%的利润,20%的内容满足80%用<br/><br/>     户的需求。<br/><br/>     6. 页面存储<br/><br/>     通过以上内容,我们已经知道了搜索引擎对页面的抓取及维护方式,接<br/><br/>     着,我们还要了解一下搜索引擎在抓取页面后,需要存储哪些信息才能<br/><br/>     满足接下来的工作对数据的需求。<br/><br/>     页面是搜索引擎对网站进行信息处理的基础,搜索引擎大部分工作都是<br/><br/>     在页面上开展的。但是,仅仅依靠页面中的内容并不能满足搜索引擎对<br/><br/>     数据处理的需求。搜索引擎能否在抓取页面的过程中获取到更多、更有<br/><br/>     价值的信息会直接影响搜索引擎的工作效率及排序结果的质量。所以,搜索引擎在抓取页面时,除了存储原始页面外,还会附加一系列的信息<br/><br/>     (例如,文件类型、文件大小、最后修改时间、URL、IP地址、抓取时<br/><br/>     间等),再把这些信息作为开展某项工作的依据。例如,如果某个文件<br/><br/>     过大,就可能会被搜索引擎放弃索引;而最后修改时间则暗示了页面更<br/><br/>     新的日期等。<br/><br/>     2.3.2 页面分析<br/><br/>     页面抓取只是搜索引擎工作的一个基础环节,页面抓取回来后并不代表<br/><br/>     搜索引擎马上就可以向终端用户提供查询服务。因为用户在使用搜索引<br/><br/>     擎进行查询的时候,使用的是一个词或者短语,而到目前为止,搜索引<br/><br/>     擎仅能提供整个原始页面,不能返回与用户查询条件相匹配的信息。因<br/><br/>     此,搜索引擎还需要对原始页面进行一系列的分析和处理,以迎合用户<br/><br/>     信息查询的习惯。<br/><br/>     如图2-10所示,搜索引擎首先对存储的原始页面建立索引,再过滤原始<br/><br/>     网页的标签信息,从中提取出网页中的正文信息;然后,对正文信息进<br/><br/>     行切词,并建立关键字索引,得到页面与关键字间的对应关系;最后,对所有关键字进行重组,从而建立关键字与页面之间的对应关系。<br/><br/>     4图 2-10 网页分析、处理流程<br/><br/>     1. 网页索引<br/><br/>     为了提高页面检索的效率,搜索引擎需要对抓取回来的原始页面建立索<br/><br/>     引,由于URL就是页面的入口地址,为原始页面建立索引实际上就是为<br/><br/>     页面的URL建立索引,这样就可以实现根据URL快速定位到对应的页<br/><br/>     面。<br/><br/>     2. 网页分析<br/><br/>     网页分析是整个网页处理中最重要的环节,包括网页正文信息的提取<br/><br/>     (即标签信息过滤)、切词、建立关键字索引列表及关键字重组这几个<br/><br/>     重要的步骤。结果形成了一个关键字对应多个原始页面的关系,即形成<br/><br/>     了与用户查询习惯相符合的信息雏形。<br/><br/>     正文信息提取<br/><br/>     网页正文信息的提取实际上就是对网页中非正文信息的过滤。其<br/><br/>     中,最为重要的就是对网页中标签信息(例如,HTML标签、JavaScript标签、PHP标签)的过滤。经过标签过滤以后,搜索引擎<br/><br/>     就可以得到网页的正文信息。<br/><br/>     切词分词<br/><br/>     经过对原始页面提取正文信息后,搜索引擎就可以得到页面的实质<br/><br/>     内容。而为了得到与用户查询相关的数据,搜索引擎还需要对页面<br/><br/>     中的内容进行切分(也就是我们常说的切词或者分词),从而形成<br/><br/>     与用户查询条件相匹配的以关键字为单位的信息列表。<br/><br/>     每个搜索引擎的切词系统都会存在或多或少的差别,切词系统的优<br/><br/>     劣主要取决于开发者对语言的理解能力。特别是在中文语言环境<br/><br/>     里,切词算法直接影响网页内容经过切词处理后会产生什么样的关<br/><br/>     键字,这些关键字是否与用户的搜索习惯一致。因而,切词的结果<br/><br/>     直接决定搜索引擎能否提供与用户查询条件相匹配的信息。在中文环境里,常见的分词方法包括字符串匹配分词及统计分词两<br/><br/>     种,下面简单介绍一下这两种中文分词算法。<br/><br/>     字符串匹配分词是基于一个足够大、足够权威的“词典”上进行<br/><br/>     的。如果页面上的词与“词典”中的词匹配,则为命中。这样就<br/><br/>     可以得到一个词或者短语。<br/><br/>     统计分词是根据相邻的两个(或者多个)字出现的概率判断这<br/><br/>     两个(或者多个)字组合后是否会形成一个词。统计分词也常<br/><br/>     常会结合“词典”进行匹配,常用于识别一些新词汇。例<br/><br/>     如,“微博”等一些在传统中文语言中不存在的词汇。<br/><br/>     关键字索引<br/><br/>     网页正文信息在经过切词系统处理后,形成了关键字列表。关键字<br/><br/>     列表中的每条记录都包括了该关键字所在的关键字编号、网页编<br/><br/>     号、关键字出现次数以及关键字在文档中的位置等信息,如表2-1<br/><br/>     所示。<br/><br/>     表 2-1 关键字列表<br/><br/>     关键字编号 网页编号 关键字 次数 位置<br/><br/>     记录1 1 1 K1 3 A1,A5,A7<br/><br/>     记录2 2 1 K2 2 A3,A9<br/><br/>     记录3 3 1 K3 3 A6,A13,A10<br/><br/>     记录4 4 1 K4 1 A2<br/><br/>     例如,记录1中的关键字K1在页面中出现了3次,对应页面中的<br/><br/>     A1、A5、A7区域,如图2-11所示。图 2-11 关键字K1在页面中的分布示意图<br/><br/>     为了提高对关键字的检索效率,搜索引擎还会为关键字列表建立索<br/><br/>     引。这样,经过对网页及关键字列表都建立索引后,就可以实现从<br/><br/>     一个网页快速定位到某一关键字。<br/><br/>     例如,网页0经过信息过滤后得到的内容是“中国广东省深圳市”;<br/><br/>     然后,对内容进行切词后产生关键字“中国”“广东省”“深圳市”,并<br/><br/>     对关键字建立索引。这样,根据网页0,搜索引擎就可以快速定位<br/><br/>     到关键字“中国”“广东省”或“深圳市”上,如图2-12所示。<br/><br/>     图 2-12 页面与关键字间的对应关系<br/><br/>     然而,用户是通过关键字去寻找那些承载相应信息的页面的,所<br/><br/>     以,搜索引擎还需要对已有信息进行相应的处理,建立关键字与页<br/><br/>     面URL间的对应关系表,从而实现根据关键字快速定位到多个页面的功能,这就是下面所说的关键字重组问题。<br/><br/>     关键字重组<br/><br/>     为了迎合用户寻找信息的习惯,即以关键字为条件寻找与关键字相<br/><br/>     关的页面。因此,搜索引擎需要建立以关键字为主索引的一个关键<br/><br/>     字对应多个页面的关系表,即关键字反向索引表。而建立关键字反<br/><br/>     向索引表最重要的任务就是对所有页面中的关键字列表进行重组。<br/><br/>     之前对关键字建立索引后,已经产生了网页与关键字的一对多的对<br/><br/>     应关系。接下来,搜索引擎把所有页面中的关键字进行重组 ,并<br/><br/>     建立关键字索引,从而形成一个不重复的关键字列表集合,即在关<br/><br/>     键字列表中,每个关键字都是唯一的。这样,通过某一个特定的关<br/><br/>     键字就可以找到一个或者多个网页,从而实现根据关键字返回相应<br/><br/>     页面的功能,如图2-13所示。<br/><br/>     图 2-13 关键字与页面间的对应关系<br/><br/>     关键字重组即把所有页面中的关键字组成一个集合。<br/><br/>     经过对原始页面进行分析、处理后,搜索引擎已经可以根据用户的查询<br/><br/>     条件返回相应的页面列表。但是,简单地向用户返回这个页面列表,往<br/><br/>     往不能满足用户的需要,所以,搜索引擎还会根据页面与用户查询条件<br/><br/>     相关性的高低再对这个列表进行重新排列,然后把处理后的列表返回给<br/><br/>     用户。这就是下面将要向大家介绍的搜索引擎对页面排序的问题。<br/><br/>     2.3.3 页面排序<br/><br/>     用户向搜索引擎提交关键字查询信息以后,搜索引擎就在搜索结果页面<br/><br/>     返回与该关键字相关的页面列表,这些页面按照与关键字的接近程度由<br/><br/>     上至下进行排列。决定页面排列次序的因素非常多,本书将介绍几种最<br/><br/>     5<br/><br/>     5常见也是最重要的因素,包括页面相关性、链接权重及用户行为。<br/><br/>     1. 页面相关性<br/><br/>     页面相关性是指页面内容与用户所查询的关键字在意义上的接近程度,主要由关键字匹配度、关键字密度、关键字分布及关键字的权重标签等<br/><br/>     决定。<br/><br/>     关键字匹配度<br/><br/>     关键字匹配度是指页面P中的内容与用户所查询的关键字K之间的<br/><br/>     匹配程度,主要由以下两个因素决定。<br/><br/>     页面P中是否存在与查询条件关键字K相匹配的内容,即页面<br/><br/>     内容中是否包含关键字K。<br/><br/>     关键字K在页面P中出现了多少次,即页面P中有多少个关键字<br/><br/>     K。<br/><br/>     为了计算关键字匹配度,搜索引擎为每个页面分配一个关键字匹配<br/><br/>     值,该值由关键字在页面中出现的次数决定。假设某个关键字在页<br/><br/>     面中出现一次,关键字匹配值为10,那么,若该关键字在页面中出<br/><br/>     现10次,则关键字匹配值=1010。<br/><br/>     如果这种假设成立,则某关键字在页面中出现的次数越多(即词频<br/><br/>     越高),页面的相关性就越高,这样搜索结果就极容易被网站所有<br/><br/>     者操控。例如,一个网站想要提高页面的相关性,只需在页面中添<br/><br/>     加足够多的关键字即可。<br/><br/>     因此,关键字词频决定页面相关性的做法是极不合理的,还需要结<br/><br/>     合关键字密度、关键字分布及关键字的权重标签等多方面来制约。<br/><br/>     关键字密度<br/><br/>     为了有效防止网站所有者恶意操控搜索结果,搜索引擎根据关键字<br/><br/>     词频与网页总词汇量的比例(即关键字密度值)来衡量页面中某关<br/><br/>     键字的词频是否合理。<br/><br/>     假设页面中某关键字的密度为50%时,这个页面的关键字密度值为20。例如,在内容是camcorder battery的页面中,camcorder的关键<br/><br/>     字密度是50%,则针对关键字camcorder,这个页面的关键字密度值<br/><br/>     为20。<br/><br/>     关键字分布<br/><br/>     关键字分布,即关键字在页面中出现的位置。关键字在页面中不同<br/><br/>     的位置上出现会对页面的相关性带来一定的影响。搜索引擎通过记<br/><br/>     录关键字在页面中出现的位置来计算页面的关键字分布值,从而得<br/><br/>     到关键字分布与页面相关性之间的关系。<br/><br/>     假设关键字在页面的顶部出现时,关键字分布值为50;而在底部出<br/><br/>     现时,关键字分布值为10;则关键字K1同时出现在页面A的顶部与<br/><br/>     底部时,该页面的关键字分布值就是60。<br/><br/>     标签影响<br/><br/>     在网页中,网页制作者利用不同的HTML标签使页面中相关的内容<br/><br/>     实现不同的视觉效果(例如字体的样式、字号、颜色等),灵活地<br/><br/>     运用各种HTML标签还有助于提高页面相关性。<br/><br/>     我们在阅读文章的时候,经常会遇到文章中某些内容的表现形式与<br/><br/>     周围的内容是存在明显区别的,例如,某些内容的字体颜色与周围<br/><br/>     的内容会形成强烈的反差,或者字号大小不一致等。<br/><br/>     这就说明了文章的作者是刻意要突出这部分内容,这部分内容比较<br/><br/>     重要。同样,在对网站进行优化的时候,我们也可以使用同样的方<br/><br/>     法来突出页面中重要的内容,例如,利用不同的HTML标签去标注<br/><br/>     页面中需要突出的内容。这样,搜索引擎在分析页面的时候就会根<br/><br/>     据HTML标签识别页面中内容的样式,从而判断页面中哪些内容更<br/><br/>     加重要。<br/><br/>     在页面权重分配里,按照标签的作用,可以把HTML标签分为权重<br/><br/>     标签与非权重标签两大类。权重标签是指会影响页面权重的标签,常见的权重标签包括<strong>、<h1>等;而非权重标签常见的<br/><br/>     有<img>、<br/><br/>     等。<br/><br/>     假设表2-2中是搜索引擎对某些标签权重值的定义,则对于一个内容是<h1><strong>搜索引擎优化<strong><h1>的页面,针对“搜索引擎优<br/><br/>     化”这个关键字,标签权重值等于<strong>标签权重值加上<h1>标签权<br/><br/>     重值,即60。<br/><br/>     表 2-2 样式标签与权重值的对应关系<br/><br/>     标签名称 标签权重值<br/><br/>     <strong>10<br/><br/>     <H1> 50<br/><br/>     通过对关键字匹配度、关键字密度、关键字分布及权重标签进行说<br/><br/>     明后,我们推算出页面相关性的计算公式如下:<br/><br/>     W (relevance)=W (match)+W (density)+W (position)+W (tag)<br/><br/>     式中,W (relevance)是页面相关性,W(match) 是关键字匹配<br/><br/>     值,W(density) 是关键字密度值,W(position) 是关键字分布<br/><br/>     值,W(tag) 是标签权重值。<br/><br/>     例如,某页面的内容如下:<html><body><strong>搜索引擎优化<strong><br/><br/>     <h1>搜索引擎<h1>……<body><html>,则针对“搜索引擎优<br/><br/>     化”这个关键字来说,由于只出现一次,则关键字匹配<br/><br/>     值W(match)=10;关键字密度是50%,则关键字密度<br/><br/>     值W(density)=20;关键字出现在页面的顶部,则关键字分布<br/><br/>     值W(position)=50;而权重标签<strong>在突出关键字“搜索引擎优化”时<br/><br/>     出现了一次,则标签权重值W(tag)=10,即W(relevance)=10+20+50+10。<br/><br/>     搜索引擎利用关键字匹配度、关键字密度、关键字分布及权重标签这四<br/><br/>     大要素相互制约的作用,完善页面相关性的计算。但是,本节所介绍的<br/><br/>     都是一些网站内部可操控因素。为了提高排序中信息的质量,搜索引擎<br/><br/>     还引入了一些外部不可操控的因素对页面相关性进行综合评估,例如外<br/><br/>     部链接与用户行为等。<br/><br/>     2. 链接权重<br/><br/>     链接主要分内部链接及外部链接两种,是网页制作或者编缉者在对页面内容进行规划或者编缉时加入到页面中的,加入的理由可能是该链接所<br/><br/>     指向的页面非常重要或者是大部分用户所需要的。因此,某一页面得到<br/><br/>     的链接越多,从一定程度上反映了该页面越重要,链接权重值就越高。<br/><br/>     如果把整个互联网看作是一个有向图,超链接为有向边,网页为节点,那么,绝大部分网页都会有一个“入度”与“出度”,根据网页的入度数量<br/><br/>     及提供入度的页面权重值来计算页面链接的权重是一个非常好的想法。<br/><br/>     假设图2-14是页面之间的关系图,其中V1、V2、V3为网页;而箭头方<br/><br/>     向则代表页面贡献链接或从其他页面中得到的链接。以网页V2为例,V2对V1、V3各贡献了一个链接,而得到了V1的链接。<br/><br/>     图 2-14 页面关系图<br/><br/>     内部链接<br/><br/>     内部链接是指网站内部页面之间的链接关系,体现了网站内部对某<br/><br/>     个页面的认可程度。理论上,页面获得的链接质量越高、数量越<br/><br/>     多,其重要性也相对越大。<br/><br/>     外部链接<br/><br/>     外部链接指本站以外的页面之间的链接关系。由于外部链接的不可<br/><br/>     操控性,外部链接在整个链接关系中占着更大的权重比例,是决定<br/><br/>     整个页面权重最重要的因素。<br/><br/>     默认权重分配<br/><br/>     网站页面数量是在不断变化的,但由于时间的关系,新增加的页面即使内容质量很高,得到的链接数量也是有限的,因此链接权重值<br/><br/>     通常会很低。在这种情况下,搜索引擎就需要对这些新页面的链接<br/><br/>     权重值按照相应的方案进行补偿,使得新页面能够得到更合理的链<br/><br/>     接权重值。<br/><br/>     在链接权重值补偿方面,搜索引擎把页面被抓取的日期作为一个参<br/><br/>     考因素。它认为页面在单位时间内获得链接的数量越多、质量越<br/><br/>     高,则该页面的质量也相对更高。<br/><br/>     例如,页面A得到30个链接,页面B也得到30个链接(假设这些链<br/><br/>     接的质量是相等)。但是,页面A花了100天时间,而页面B只花了<br/><br/>     1天时间。这从一定程度上反映页面B比页面A更重要。因此,就需<br/><br/>     要给页面B进行一定的补偿,使得页面B所得链接权重值高于页面<br/><br/>     A。<br/><br/>     3. 用户行为<br/><br/>     搜索引擎在完成页面基本权重计算以后,就可以向用户展示初步的排序<br/><br/>     结果。但这个排序结果不一定能让大部分用户满意,因此还要结合其他<br/><br/>     因素对该排序结果进行改进。例如,统计每条搜索结果的点击次数来推<br/><br/>     测用户对搜索结果的偏好。<br/><br/>     用户对搜索结果的点击行为是衡量页面相关性的因素之一,是完善排序<br/><br/>     结果、提高排序结果质量的重要补充,属于外部不可操控因素(详细请<br/><br/>     参考2.3.4节)。<br/><br/>     综上所述,搜索引擎通过计算页面在页面相关性、链接权重值及用户行<br/><br/>     为等方面的得分,得到页面的总权重值;然后,再按照页面的总权重值<br/><br/>     从高到低进行排序并把这个经过排序的列表返回给用户。<br/><br/>     即W(page)= W(relevance)+ W(link)+ W(user)<br/><br/>     式中,W(page)是页面权重值,W (relevance) 是页面相关性值,W (link)<br/><br/>     是链接权重值,W (user) 是用户行为得分。<br/><br/>     2.3.4 关键字查询<br/><br/>     在计算完所有页面的权重后,搜索引擎就可以向用户提供信息查询服务。搜索引擎查询功能的实现非常复杂,用户对返回结果的时间要求也<br/><br/>     非常高(通常是秒级),要在这么短的时间内完成这么复杂的计算是不<br/><br/>     现实的。所以,搜索引擎需要通过一套高效的机制处理来自用户的查<br/><br/>     询。这主要应该包括:<br/><br/>     在用户发出查询请求前就完成被查询关键字的反向索引、相关页面<br/><br/>     权重计算等工作。<br/><br/>     为那些查询最频繁的关键字对应的页面排序列表建立缓存机制。<br/><br/>     其中,关键字重组、页面权重分配等工作已经在前面进行了详细的说<br/><br/>     明。接下来,就介绍搜索引擎如何建立信息查询的缓存机制。<br/><br/>     1. 查询流程<br/><br/>     首先,向大家介绍搜索引擎处理用户查询的流程,如图2-15所示。<br/><br/>     图 2-15 查询处理流程<br/><br/>     1. 先对用户提供的查询条件进行切词,并删除查询条件中没有意义的字<br/><br/>     或词,例如,“的”“得”等停用词。<br/><br/>     2. 再以切词结果作为条件在关键字反向索引列表中进行匹配。<br/><br/>     3. 如果存在匹配结果,则把所有与关键字相匹配的页面的URL组成一个<br/><br/>     列表。4. 最后,把匹配的页面按照权重值从高到低进行排序,并返回给用户。<br/><br/>     其中,3、4 两个步骤在用户查询之前已经完成。<br/><br/>     例如,用户查询“手机图片”,搜索引擎对其进行切词后得到的查询条件<br/><br/>     是“手机+图片”;再把“手机+图片”在关键字反向索引列表中进行匹配;<br/><br/>     结果得到了A、B、C这三个相关页面;再计算三个页面的权重值,如果<br/><br/>     这三个页面的权重值关系是B>C>A,则这三个页面在搜索结果列表中的<br/><br/>     排列顺序就是B、C、A。<br/><br/>     2. 用户行为<br/><br/>     用户在搜索引擎中的行为主要包括搜索及点击,搜索是用户获取信息的<br/><br/>     过程,点击是用户得到需要信息后的表现。<br/><br/>     用户的搜索及点击行为中蕴含着非常丰富、重要的信息。例如,在用户<br/><br/>     搜索行为中包含了提交的关键字、提交时间、用户IP地址等信息,而在<br/><br/>     点击行为中则包含了每个结果的点击次数等信息。<br/><br/>     搜索引擎通过对用户行为的分析可以进一步发掘用户的需求,提高搜索<br/><br/>     结果的精准度。例如,从用户的搜索行为中,搜索引擎还可以发现新词<br/><br/>     汇;而从用户对搜索结果的点击行为中,可以分析出用户对每个搜索结<br/><br/>     果的偏好等。<br/><br/>     搜索<br/><br/>     搜索是用户获取信息的途径,是搜索引擎最基本的功能。搜索引擎<br/><br/>     可以在用户的搜索行为中得知某一关键字被搜索的次数,通过对关<br/><br/>     键字被搜索的次数的分析,可以发现新词汇,进一步了解用户搜索<br/><br/>     习惯。<br/><br/>     由于语言是不断发展的,随着时间的推移会产生更多的新词汇。特<br/><br/>     别是在互联网环境中,某个热点的事件也有可能成为一个新的词<br/><br/>     语,例如“艳照门”等。<br/><br/>     对搜索引擎而言,新生词汇主要是指那些目前搜索引擎词典系统里<br/><br/>     不存在、但是又被频繁搜索的关键字。如果某一关键字在搜索引擎<br/><br/>     词典系统里不存在,则切词时就不会产生该关键字,这样用户在查询该关键字时就返回不了相关的信息,也就不能满足用户的需求。<br/><br/>     因此,搜索引擎对新词汇的学习能力从一定程度上反映了搜索引擎<br/><br/>     对语言的理解能力,是衡量搜索引擎好坏的重要指标之一。<br/><br/>     结合用户搜索习惯与页面内容去发掘新关键字是搜索引擎学习新词<br/><br/>     汇的主要方式之一,如图2-16所示。<br/><br/>     图 2-16 新词汇识别流程<br/><br/>     对用户查询日志进行分析,筛选出日志中查询相对频繁的词<br/><br/>     汇。<br/><br/>     如果某个查询相对频繁的关键字不存在于词典系统中,就把这<br/><br/>     个关键字与部分页面的内容进行匹配;如果命中,则表明该关<br/><br/>     键字是存在的,加入词典系统;否则,对下一个查询频繁词语<br/><br/>     进行匹配。<br/><br/>     点击<br/><br/>     点击是用户找到所需信息后的表现,反映了用户对信息的关注。因<br/><br/>     此,用户对链接的点击也是衡量页面相关性的一个因素,是衡量页<br/><br/>     面相关性的一个重要补充。<br/><br/>     在同一个关键字的搜索结果列表中,不同的用户会有不同的选择。<br/><br/>     但是,如果某一个结果的点击次数明显多于其他结果,则从一定程<br/><br/>     度上反映了该页面是大部分用户所需要的(特别是当该链接处在比<br/><br/>     较靠后的位置时)。众所周知,搜索结果中越靠前的链接得到点击的几率就会越高。按<br/><br/>     照这样的逻辑,那么在排在第二、第三甚至第四的页面被点击的机<br/><br/>     会就会变得越来越小,但这并不代表这些页面就不比排在前面的页<br/><br/>     面重要,只是在目前的排序结果中,用户还没机会发现它们而已。<br/><br/>     所以,对于不同位置上链接的点击,搜索引擎会对其权重值进行相<br/><br/>     应的补偿。假设排在第一位的结果每被点击一次会产生1分的补<br/><br/>     偿,而排名在100名的结果被点击一次则会产生10分甚至更多的补<br/><br/>     偿。<br/><br/>     3. 缓存机制<br/><br/>     为了能在极短的时间内响应用户的查询请求,搜索引擎除了在用户提交<br/><br/>     查询信息前就生成关键字对应的页面排序列表以外,还需要为那些查询<br/><br/>     最频繁的关键字对应的页面排序列表建立缓存机制。<br/><br/>     经过统计,搜索引擎发现关键字查询的集中现象非常明显。查询次数最<br/><br/>     多的前20%的关键字大约占了总查询次数的80%(即著名的8020法<br/><br/>     则)。因此,只要我们对这20%左右的关键字建立缓存就可以满足80%<br/><br/>     的查询需求。<br/><br/>     由于用户查询时返回的信息主要是与关键字相关的页面排序列表,因此<br/><br/>     关键字缓存机制的建立主要是针对与关键字相关的页面排序列表。在对<br/><br/>     常用关键字的页面排序列表建立缓存后,搜索引擎就可以把缓存中的信<br/><br/>     息返回给用户,这样速度就会非常快,也就能满足绝大部分用户的需<br/><br/>     求。<br/><br/>     由于互联网中的信息是时刻都在增长的,如果搜索引擎每次都向用户返<br/><br/>     回同样的信息,那么不但用户得不到更高质量的信息,其他网站也不能<br/><br/>     向用户展示最新的高质量信息,从而造成信息滞后。因此,搜索引擎还<br/><br/>     会对缓存中的内容进行定期更新。2.4 搜索引擎特色算法<br/><br/>     为了不断提高查询结果的效率与质量,搜索引擎会不断地对自身的算法<br/><br/>     进行改进。在过去的几年里,主流搜索引擎(特别是Google)进行了数<br/><br/>     次重要的算法升级。这里向大家介绍几个重要的算法,包括<br/><br/>     TrustRank、BadRank及百度的绿萝算法。<br/><br/>     2.4.1 TrustRank算法<br/><br/>     TrustRank(信任指数),是基于网页与可信任网页之间的链接关系及<br/><br/>     传播深度来计算网页间信任程度的算法,目的是从互联网中筛选出质量<br/><br/>     相对较高的网页。<br/><br/>     TrustRank算法认为,如果某网页与可信任网页之间存在链接关系,那<br/><br/>     么链接深度越小,该网页的可信任指数就会越高,权重就会越大。通过<br/><br/>     TrustRank算法,搜索引擎可以找到互联网中相对权威的网站或者网<br/><br/>     页,如果进一步细分至不同行业,就可以挖掘出不同行业中的权威网站<br/><br/>     或网页。TrustRank算法属于信任传播类模型,主要有两步工作流程。<br/><br/>     1. 可信任网页集合筛选。TrustRank算法通过人工审核的方式来判断某<br/><br/>     个网页是否属于可信任网页,从而将可信任网页加入到可信任网页集合<br/><br/>     中(即网页白名单)。由于互联网上存在着海量的网页,因此需要通过<br/><br/>     相应的算法进行预过滤,再对符合条件的网页进行人工筛选。<br/><br/>     2. 网页信任值的传播计算。网页信任值的传播涉及两个方面的问题:一<br/><br/>     是可信任网页外出链接数量,二是网页与可信任网页之间的链接深度。<br/><br/>     可信任网页外出链接数量<br/><br/>     一个可信任网页包含的外出链接数越多,被链接的网页得到的信任<br/><br/>     值就会越小,反之亦然。假设某个可信任网页的信任值是100,它<br/><br/>     存在10个外出链接,如果被指向的网页对信任值进行平均分配,则<br/><br/>     每个网页的信任值就是10。<br/><br/>     网页与可信任网页的链接深度TrustRank算法除了计算存在直接链接关系的网页外,还会计算存<br/><br/>     在间接链接关系的网页。间接链接关系可参考图2-17,A是可信任<br/><br/>     网页,A与B存在直接链接关系,B与C存在直接链接关系,那么C<br/><br/>     与A之间就是间接的链接关系。<br/><br/>     图 2-17 网页间的链接关系<br/><br/>     网页与可信任网页之间的链接距离越大,可信任度就越小。通过以<br/><br/>     上两种策略计算出某网页的可信任指数,可信任指数越低,该网页<br/><br/>     的可靠性就越差,权重就越低。<br/><br/>     2.4.2 BadRank算法<br/><br/>     BadRank算法基于一个这样的假设:如果某个网页与一个不可信任或具<br/><br/>     有作弊行为的网页之间存在链接关系,那么该网页也有可能存在作弊行<br/><br/>     为。与TrustRank算法刚好相反,BadRank算法最主要的目的是从互联网<br/><br/>     中筛选出质量低下的网页。<br/><br/>     BadRand算法与TrustRank算法的工作原理极为相似,首先是确定一批不<br/><br/>     可信任网页集合(即网页黑名单),再通过网页与不可信任网页间的链<br/><br/>     接关系及链接距离计算出网页的不信任值,从而确定某个网页是否为不<br/><br/>     可信任网页。<br/><br/>     2.4.3 百度绿萝算法<br/><br/>     百度绿萝算法是针对垃圾链接发布的,截至本书定稿时共发布了两个版<br/><br/>     本,即百度绿萝算法1.0及2.0。<br/><br/>     百度官方于2013年2月19日发布了绿萝算法1.0版本,主要针对超链中<br/><br/>     介、出卖链接网站及购买链接网站,是首次明确禁止链接买卖行为。<br/><br/>     2013年7月1日,百度官方发布了绿萝算法2.0版本,这次主要是针对软<br/><br/>     文发布平台,包括软文发布网站及软文受益网站。<br/><br/>     这两次算法更新影响到了国内大部分网站。如果你的网站存在百度绿萝<br/><br/>     算法禁止的行为,建议你采取以下措施。停止买卖链接的行为,不管是文本链接的购买还是软文链接。<br/><br/>     清理已经购买的文本链接。<br/><br/>     利用百度管理员工具的拒绝外链管理功能对以前发布软文的站点进<br/><br/>     行链接拒绝。<br/><br/>     停止发外链行为,包括论坛、博客等。2.5 搜索引擎介绍<br/><br/>     搜索引擎优化的一个主要任务是提高网站的搜索引擎友好性,因此学习<br/><br/>     搜索引擎优化还需要熟悉各主要搜索引擎的习性。下面将介绍四类主流<br/><br/>     搜索引擎:Google、百度、搜狗及360搜索。<br/><br/>     2.5.1 Google<br/><br/>     Google是基于全文索引的搜索引擎,源于斯坦福大学的BackRub项目,由Larry Page及Sergey Brin 主要负责。1998年,BackRub更名为Google,并成立公司。发展至今,Google搜索涉及全球多种语言,是目前最有影<br/><br/>     响力的搜索引擎,如图2-18所示。<br/><br/>     图 2-18 Google中文首页<br/><br/>     2010年3月,由于众所周知的原因,Google宣布退出中国市场,其在中国大陆的市场份额已经<br/><br/>     所剩无几,均被其他搜索引擎瓜分,其中最大的得益者非百度莫属。<br/><br/>     Google是目前世界上最大的搜索引擎,先进的算法被争相模仿。因此,加深对Google的了解可以帮助我们更好地认识其他搜索引擎。<br/><br/>     6<br/><br/>     6在搜索引擎优化方面,我认为Google与其他搜索引擎主要存在以下明显<br/><br/>     的区别。<br/><br/>     Google十分重视链接关系,对于链接的质量、数量及相关性方面的<br/><br/>     分析技术在业界更是遥遥领先。尽管百度、搜狗及必应也非常重视<br/><br/>     链接关系,但对于链接的质量及相关性方面的分析远不如Google。<br/><br/>     在切词算法上,Google与其他中文搜索引擎也存在一定的区别。<br/><br/>     在对待新网站方面,Google非常严格,新网站只有同时满足多个条<br/><br/>     件时,才能正常参与排名竞争,这就是所谓的“沙盒效应”。这样做<br/><br/>     可以有效避免垃圾网站,但同时也给一些新的优秀的网站诸多制<br/><br/>     肘,很难通过Google向用户展示其极具价值的信息。<br/><br/>     在对垃圾信息处理方面,尽管Google目前还是以人工为主,但与其<br/><br/>     他搜索引擎相比,Google Spam检测算法已经比较成熟。对于一些<br/><br/>     常见的作弊手段,例如伪装(cloaking)、门页(doorway page)、堆砌关键字、隐藏文字、垃圾链接等,Google可以轻易识别。<br/><br/>     2.5.2 百度<br/><br/>     作为中文搜索引擎的统治者,也许百度的技术不如Google。但是,百度<br/><br/>     在中国大陆的市场占有率方面远比Google大得多 。因此,加深对百度<br/><br/>     的认识也是非常必要的。百度首页如图2-19所示。<br/><br/>     自Google退出中国市场,百度在中国大陆的搜索市场份额就一路飙升,最高时号称占领中国<br/><br/>     大陆79%的搜索市场份额,直至360及搜狗的发力才有所回落。<br/><br/>     7<br/><br/>     7图 2-19 百度首页<br/><br/>     如果把决定页面权重的因素分内部因素与外部因素两大类,在百度<br/><br/>     中,内部因素与外部因素在影响页面权重方面的差距比较小。<br/><br/>     百度对新网站比较宽松,这就造成了搜索结果中充斥着大量的垃圾<br/><br/>     信息,严重影响了用户体验。<br/><br/>     百度也非常重视链接关系,对于被高质量页面链接的页面会赋予极<br/><br/>     高的权重,但不太重视链接关系中网站间的主题相关性。<br/><br/>     百度对搜索结果的人工干预非常强。<br/><br/>     2.5.3 搜狗<br/><br/>     搜狗是搜狐公司于2004年推出的互动式搜索引擎,经历了将近10年的发<br/><br/>     展,搜狗的检索技术不断地成熟,在中文搜索引擎中也占有一席之地。<br/><br/>     特别是在2013年宣布与腾讯搜搜合并后,其覆盖人群进一步扩大,成为<br/><br/>     中文搜索引擎的一支后起之秀,号称市场占有率达12%。图2-20为搜狗<br/><br/>     首页。图 2-20 搜狗首页<br/><br/>     2.5.4 360搜索<br/><br/>     360于2013年8月推出了自有搜索引擎360搜索,凭借巨大的浏览器安装<br/><br/>     率,360搜索自上线之日起即获得相当可观的市场占有率。半年内更是<br/><br/>     攻城掠地,不仅将原Google的市场份额洗劫一空,更是不断深入百度及<br/><br/>     搜狗的腹地,成为中国大陆不可小视的力量,更让百度寝食难安。图2-<br/><br/>     21为360搜索首页。图 2-21 360搜索<br/><br/>     不管是百度、搜狗还是360,他们在搜索方面的技术都存在很多相似之<br/><br/>     处,我们不太可能分别针对三大不同的搜索引擎来优化我们的网站。我<br/><br/>     的原则是在满足百度的基础之上,兼顾其他的搜索引擎。<br/><br/>     了解搜索引擎的工作原理是开展搜索引擎优化工作的基础。只有充分掌<br/><br/>     握搜索引擎工作的流程及原理,我们才能更好地规划网站,提高网站的<br/><br/>     搜索引擎友好性。第 3 章 关键字<br/><br/>     要对网站进行优化,首先需要为网站中的页面选择合适的关键字,然后,围绕突出关键字、提高页面相关性开展一系列的工作,从而<br/><br/>     提高页面在相应关键字搜索结果中的排名。本章将在关键字策略一<br/><br/>     节中介绍如何寻找及筛选关键字;而对于突出关键字、提高页面相<br/><br/>     关性则分别在关键字词频、关键字密度、辅关键字及关键字分布中<br/><br/>     进行说明。<br/><br/>     本章内容<br/><br/>     关键字简介<br/><br/>     关键字词频<br/><br/>     关键字密度<br/><br/>     关键字词频与密度的关系<br/><br/>     主关键字<br/><br/>     辅关键字<br/><br/>     关键字分布及表现形式<br/><br/>     关键字策略3.1 关键字简介<br/><br/>     关键字(keyword)在不同的领域有不同的含义。在搜索引擎中,关键<br/><br/>     字是指用户在寻找相关内容时所使用的信息,是搜索应用的基础,也是<br/><br/>     搜索引擎优化的基础。搜索引擎优化的作用之一就是提高页面与某个关<br/><br/>     键字之间的相关性,要了解关键字与页面相关性的关系,我们要从认识<br/><br/>     关键字词频及关键字密度开始。3.2 关键字词频<br/><br/>     关键字词频是指某个关键字在页面中出现的频率,也即关键字在页面中<br/><br/>     出现的次数,从一定程度上反映了页面与该关键字之间的相关性。<br/><br/>     在搜索引擎发展初期,搜索结果中页面的排序基本是由关键字词频所决<br/><br/>     定的。也就是说,页面中某个关键字出现的次数越多,说明该页面与此<br/><br/>     关键字间的相关性就越高,因此,在这个关键字的搜索结果中排名就越<br/><br/>     靠前。这种单纯以词频决定排序的方式,极容易被恶意操纵,从而影响<br/><br/>     搜索引擎的用户体验。因此,搜索引擎逐渐引进了诸如关键字密度、关<br/><br/>     键字分布、链接锚文本、外部链接数量、外部链接质量及外部链接相关<br/><br/>     性等因素进行制约。3.3 关键字密度<br/><br/>     在实际中,常用关键字密度来衡量页面中关键字的词频是否合理。关键<br/><br/>     字密度主要由关键字词频及总词汇量两个因素决定,这三者之间的关系<br/><br/>     如下:<br/><br/>     关键字密度=关键字词频总词汇量<br/><br/>     式中,总词汇量是指页面程序标签(如HTML标签及ASP、JSP、PHP<br/><br/>     等)以外的词汇的数量。<br/><br/>     以下对关键字密度的理解是不正确的:关键字密度=关键字总字节数<br/><br/>     页面总字节数。<br/><br/>     目前很多所谓的中文关键字密度工具都是按照这样的方法计算关键字密<br/><br/>     度的。例如,对于中文关键字“手机”,在页面中出现了1次,如果页面<br/><br/>     大小是1KB,则“手机”的关键字密度就是41024(1个中文字符=2字节,1个英文字符=1字节)。这样的统计结果是错误的。<br/><br/>     了解关键字密度,要先认识搜索引擎对页面的分词。本书将从中英文这<br/><br/>     两种我们平常接触得最多的语言出发介绍关键字密度。<br/><br/>     3.3.1 英文关键字密度<br/><br/>     要了解英文关键字密度,关键是要认识在英文语言环境中,搜索引擎是<br/><br/>     怎样对页面进行分词的。<br/><br/>     1. 分词<br/><br/>     分词又称为切词,是指把网页中的正文内容 划分为若干个具有实际意<br/><br/>     义的词汇(参见2.3.2节)。<br/><br/>     网页正文内容是指去掉网页中程序标签(如HTML标签、JSP等)以外的内容。<br/><br/>     2. 英文分词<br/><br/>     在英文书面表达里,空格是单词之间的自然分隔符,而句点就是一个句<br/><br/>     1<br/><br/>     1子或者段落结束的标记。根据这个特征,搜索引擎就可以轻易地对网页<br/><br/>     正文内容进行准确的划分。<br/><br/>     如图3-1所示,camcorder battery之间的空格就单词camcorder与单词<br/><br/>     battery间的分隔符;而句点“.”则是该句子结束的标记。<br/><br/>     图 3-1 英文句子<br/><br/>     3. 英文关键字密度<br/><br/>     在英文中,同一单词的不同形式会被认为是两个不同的单词(大小写除<br/><br/>     外)。例如,battery与其复数形式batteries,就会被认为是两个不同的单<br/><br/>     词。在图3-1的句子中,battery与batteries各在页面中出现了1次,则<br/><br/>     battery与batteries的关键字密度都是117。<br/><br/>     而对于英文词组,在衡量这个英文词组的关键字密度是否合理时,除了<br/><br/>     计算这个英文词组的关键字密度以外,还要计算组成英文词组里的每一<br/><br/>     个单词的密度。例如,在图3-1中,对于词组关键字camcorder battery,除了要统计camcorder battery这个词组的关键字密度以外,还要统计<br/><br/>     camcorder battery中的camcorder与battery的关键字密度。即camcorder<br/><br/>     battery在页面中出现了一次,它的关键字密度 就是116 ,而 camcorder<br/><br/>     与battery都只出现了一次,则它们的关键字密度都为117。<br/><br/>     由于camcorder battery被看作一个整体,所以,网页中的词汇量只有16。<br/><br/>     通过手工的方式去统计页面中的关键字密度显然是不可行的。下面,向<br/><br/>     大家介绍一个计算英文页面中关键字密度的工具—关键字密度检查器。<br/><br/>     4. 英文关键字密度工具<br/><br/>     关键字密度检查器(工具地址:http:www.webconfs.comkeyword-<br/><br/>     density-checker.php)只适用于英文网站,这个工具通过统计页面中每一<br/><br/>     个单词出现的次数,计算出每个单词占页面总单词量的比例,如图3-2<br/><br/>     2<br/><br/>     2所示。<br/><br/>     图 3-2 关键字密度检查器界面<br/><br/>     我们只需要在文本框中输入要查询的页面URL即可,例如输<br/><br/>     入http:www.pcb-prototype.net,点击submit即可查询该页面中关键字的<br/><br/>     密度,如图3-3所示。<br/><br/>     图 3-3 页面中部分关键字的密度<br/><br/>     3.3.2 中文关键字密度<br/><br/>     1. 中文分词<br/><br/>     在中文里,字或者词之间并不存在自然分隔符,而且中文里的词通常由<br/><br/>     两个或两个以上的中文字符组成。因此,搜索引擎不能借助分隔符对页<br/><br/>     面的正文内容进行分词,而是基于自有词典,再结合某种算法对页面正文内容进行分词(请参考2.3.2节)。<br/><br/>     2. 中文关键字密度<br/><br/>     为了让读者可以更加容易理解中文关键字密度 ,下面举一个简单的例<br/><br/>     子进行说明。例如,网页内容为“我的笔记本”,基于现有的词典,搜索<br/><br/>     引擎将其分为“我”“的”“笔记本”,则关键字“笔记本”在这个网页中的密<br/><br/>     度就是13。<br/><br/>     由于中文存在分词问题,目前还没有工具可以准确地统计中文关键字密度。<br/><br/>     对于短语关键字,在衡量这个短语的关键字密度是否合理时,除了计算<br/><br/>     这个短语的关键字密度,还要计算组成短语里的每个词的密度。例<br/><br/>     如,“智能手机走进大众市场”切分为“智能”“手机”“走进”“大众”“市<br/><br/>     场”。短语关键字“智能手机”的关键字密度是14 ,而“智能手机”中<br/><br/>     的“智能”及“手机”各出现了一次,它们的关键字密度都是15。<br/><br/>     由于“智能手机”被看作是一个整体,所以,网页中的词汇量只有4。<br/><br/>     3.3.3 关键字密度范围<br/><br/>     通过以上内容,我们知道了搜索引擎对页面的分词方法,以及如何计算<br/><br/>     中英文页面中的关键字密度。然而,网页中关键字的密度在什么范围内<br/><br/>     才被认为是与某关键字高相关的?具体我们无从得知。通常,搜索引擎<br/><br/>     会对若干样本数据进行综合分析,最终确定关键字密度值在哪个范围内<br/><br/>     页面相关性更高,再以此值来衡量待分析网页中的关键字密度是否合<br/><br/>     理。<br/><br/>     关键字密度的范围在不同的搜索引擎中会有所差别。基于长期的英文网<br/><br/>     站优化经验,一般认为,关键字密度在6%~10% 是比较合理的。<br/><br/>     此值仅是基于经验总结出来,主观性较强,而且目前并没有中文关键字密度分析工具,因此<br/><br/>     对于中文网页意义不大。<br/><br/>     3.3.4 关键字密度与页面相关性<br/><br/>     关键字密度是衡量页面相关性的重要指标之一。搜索引擎会根据页面中<br/><br/>     每个关键字的密度对页面的主题进行定位。也就是说,如果我们的页面<br/><br/>     3<br/><br/>     3<br/><br/>     4<br/><br/>     4<br/><br/>     5<br/><br/>     5要出现在某个关键字K的搜索结果中,最基本的是页面中K的关键字密<br/><br/>     度要在某个特定的范围以内(如6%~10%)。<br/><br/>     例如,要想让网站中的某个页面出现在“手机”的搜索结果中,则首要条<br/><br/>     件就是该页面上“手机”这个词的关键字密度要在某一个特定的范围内。<br/><br/>     否则,就会被排除在“手机”的搜索结果以外。3.4 关键字词频与密度的关系<br/><br/>     尽管关键字密度与关键字词频都是表达页面中某个关键字的多寡,但是<br/><br/>     两者的含义却存在很大差别。关键字词频表达的是关键字出现的次数,而关键字密度表达的是该关键字的词频与页面总词汇量的比例。两者的<br/><br/>     关系如下。<br/><br/>     关键字密度是衡量页面中关键字词频是否合理的重要指标。<br/><br/>     当两个页面词汇量相等时,关键字密度越大,词频就越大;反之亦<br/><br/>     然。但是,不管是关键字密度还是词频,都不是越大越好,而是有<br/><br/>     一个阈值。关键字密度达到某个阈值时,页面相关性最高,当高于<br/><br/>     或者低于这个阈值时,页面相关性就会出现递减。如图3-4所示。<br/><br/>     图 3-4 关键字密度与页面相关性的关系3.5 主关键字<br/><br/>     主关键字是指表达页面主题的关键字,而非意义最广泛的关键字。例<br/><br/>     如,一个页面的主题是“手机铃声下载”,那么这个页面的主关键字就<br/><br/>     是“手机铃声下载”,而非“手机铃声”或者“手机”。3.6 辅关键字<br/><br/>     由于一个关键字会存在多种不同的表达或者描述方式,从而产生了所谓<br/><br/>     的辅关键字。例如,英文的单复数或词组,中文的结构短语(如形容词<br/><br/>     +名词),等等。<br/><br/>     3.6.1 辅关键字简介<br/><br/>     辅关键字是指对主关键字进行相应的增加或删除以后产生的、对主关键<br/><br/>     字的意义在程度或者范围上起到扩大或者缩小作用的关键字。<br/><br/>     在英文语言环境里,我们除了可以使用主关键字与其他单词或词组<br/><br/>     组合后产生的新词组作为辅关键字以外,还可以选择主关键字的单<br/><br/>     复数等形式作为辅关键字。例如,battery与另外一个单词camcorder<br/><br/>     组合后产生的词组camcorder battery是一个辅关键字;而复数形式<br/><br/>     batteries也是主关键字battery的一个辅关键字。<br/><br/>     在中文语言环境中,我们也是通过对主关键字进行相应增加或删除<br/><br/>     的方法得到辅关键字。例如,主关键字“手机”与“智能”这个词组合<br/><br/>     后,就产生一个新的辅关键字“智能手机”。<br/><br/>     3.6.2 辅关键字作用<br/><br/>     在页面中,辅关键字可以有效增加主关键字的词频,突出页面的主题。<br/><br/>     此外,辅关键字的存在还会提高页面被检索的几率,从而增加网站的流<br/><br/>     量。<br/><br/>     1. 在内容方面,辅关键字是主关键字的一个重要的说明及补充。<br/><br/>     例如,有两个网站,包含以下栏目。<br/><br/>     甲网站:“手机”“诺基亚”“三星”“摩托罗拉”“多普达”<br/><br/>     乙网站:“手机”“智能手机”“拍照手机”“音乐手机”“娱乐手机”<br/><br/>     乙网站中的辅关键字“智能手机”“拍照手机”“音乐手机”“娱乐手机”就可以对主关键字“手机”进行重要的补充,提高页面相关性。<br/><br/>     2. 利用辅关键字可以有效增加主关键字的词频,控制关键字密度,避免<br/><br/>     为了提高主关键字词频而陷入堆砌关键字的误区。<br/><br/>     例如,有两个内容如下的页面。<br/><br/>     页面1:“手机”“智能手机”“商务手机”“音乐手机”“拍照手机”<br/><br/>     页面2:“手机”“手机”“手机”手机”“手机”“手机”<br/><br/>     搜索引擎对页面1进行分词操作后,得到词汇:“手机”“智能”“手<br/><br/>     机”“商务”“手机”“音乐”“手机”“拍照”“手机”,则页面1中主关键<br/><br/>     字“手机”的关键字密度就是59,而词频是5。<br/><br/>     而经过对页面2进行分词操作后,得词汇“手机”“手机”“手机”“手<br/><br/>     机”“手机”。则主关键字“手机”的关键字密度是100%,而词频也是<br/><br/>     5。<br/><br/>     假设关键字密度在10%的时候,页面相关性最高。页面1显然比页<br/><br/>     面2更接近这个值。<br/><br/>     3. 增加相关的辅关键字还可以提高页面在其他关键字搜索结果中被检索<br/><br/>     的几率。<br/><br/>     例如,一个页面中存在主关键字“手机”及辅关键字“手机报价”“手机图<br/><br/>     片”,那么用户除了可以在主关键字“手机“的搜索结果中发现该页面以<br/><br/>     外,还有可能在“手机报价”“手机图片”等辅关键字的搜索结果中发现该<br/><br/>     页面。<br/><br/>     经过上面的介绍,相信读者对关键字词频及密度与页面相关性的关系已<br/><br/>     经有了一定的了解。接下来介绍的是关键字的分布及表现形式与页面相<br/><br/>     关性之间的关系。3.7 关键字分布及表现形式<br/><br/>     搜索引擎对网页的分析是在网页的HTML源代码上进行的,网页的源代<br/><br/>     码从一定程度上反映了搜索引擎分析网页内容的先后顺序。本节将结合<br/><br/>     页面布局及HTML源代码对关键字的分布规律进行说明。<br/><br/>     3.7.1 关键字分布<br/><br/>     搜索引擎分析网页的时候,在HTML源代码中是自上而下地进行的。而<br/><br/>     从页面布局的角度上看,则是自上而下、自左而右地进行的,这与用户<br/><br/>     浏览网页的习惯也是相符合的。因此,搜索引擎会更加重视网页中首先<br/><br/>     出现的内容,我们在规划页面时也应该把相对重要的内容安排在页面的<br/><br/>     顶部。如图3-5所示,搜索引擎对页面的重视程度沿着箭头方向逐渐降<br/><br/>     低。<br/><br/>     图 3-5 用户浏览习惯<br/><br/>     下面,我们再从文章写作的角度分析关键字的分布规律。在一篇文章<br/><br/>     中,题目是最先出现的;然后就是文章的简述;再就是围绕文章主题而展开描述的内容;最后通常是对文章内容的总结。对于网页而言,网页<br/><br/>     标题标签就是网页的“题目”;描述标签的内容则是文章的简述,网页正<br/><br/>     文内容就是文章内容,网页最底部内容就是文章内容的总结。因此,页<br/><br/>     面中的主辅关键字应该合理地分布在这些区域上。<br/><br/>     1. 页面头部,主要包括标题、描述及关键字标签(简称TDK标签)。标<br/><br/>     题内容在网页头部中是最先出现的,然后就是描述(这相当于文章的题<br/><br/>     目与简述)及关键字标签的内容。所以,要让主关键字优先出现在标题<br/><br/>     及描述内容的最前面(TDK优化请参考5.3节)。<br/><br/>     如下面代码所示,主关键字“长沙激光治疗近视价格”在标题及描述内容<br/><br/>     的最前面出现。<br/><br/>     <title>长沙激光治疗近视价格 – 康华眼科网<title><br/><br/>     <meta name=description content=长沙激光治疗近视价格:康华眼科网为你提供全国1000多家眼科医院的手术报价信息。你可以在线对比多家眼科医院的手术费用,找到你满意的眼科医院。 ><br/><br/>     <meta name=keywords content=长沙激光治疗近视价格,康华眼科网 ><br/><br/>     2. 网页正文。在网页正文中,相对重要的就是网页的最顶部及最底部,即接近<body>标签后及<body>标签前的位置,如下所示。<br/><br/>     顶部代码:<br/><br/>     <body><br/><br/>     <table width=778 border=0 align=center cellpadding=0 cellspacing=0><tr><td width=218><a href=http:www.chinaeye.com><img src=http:www.chinaeye.comimagesmaini1.gif width=218 height=32 border=0 alt=长沙激光治疗近视价格><a><br/><br/>     底部代码:<br/><br/>     CopyRight copy; 2005-2014<br/><br/>     <A class=drm_black href=http: www.chinaeye.com>长沙激光治疗近视价格<A>,All Rights Reserved.<body><html><br/><br/>     除了网页的头部、正文最顶部及最底部这些相对重要的位置外,在网页<br/><br/>     中,左上区域的关键字词频要比右下区域大;对应HTML源代码,就是顶部的关键字词频要比中下部的大。<br/><br/>     例如在某页面中,主关键字“长沙激光治疗近视价格”及其辅关键字“激<br/><br/>     光治疗近视价格”在左上区域的词频明显大于右下区域,如图3-6所示。<br/><br/>     图 3-6 关键字“长沙激光治疗近视价格”分布图<br/><br/>     3.7.2 关键字表现形式<br/><br/>     关键字表现形式是指关键字在页面中的显示样式,常见的关键字表现形<br/><br/>     式包括字体的字号、颜色、样式等;而字体样式又包括加粗、下划线、斜体、段落标题等(详细请参考5.4节)。<br/><br/>     3.7.3 关键字描述<br/><br/>     关键字描述指在页面中通过多种方式表达主辅关键字,以达到合理增加<br/><br/>     主辅关键字的词频及控制主关键字密度的目的。在中文里,我们可以使用结构短语对主关键字进行描述。例如,对于主<br/><br/>     关键字“手机”,可以通过“智能手机”“音乐手机”等短语来增加主关键字<br/><br/>     词频及控制主关键字密度。<br/><br/>     在英文中,表达一个关键字有多种方法。例如对于主关键字camcorder<br/><br/>     battery,可以通过以下两种方法进行表达。<br/><br/>     battery for camcorder<br/><br/>     battery of camcorder<br/><br/>     这样就可以合理增加词组关键字camcorder battery中各单词的词频,从<br/><br/>     而使得组成词组的各单词的关键字密度更加合理。3.8 关键字策略<br/><br/>     制定正确的关键字策略可以避免与强大的竞争对手直接竞争,从而占据<br/><br/>     属于自己的一席之地,为以后的生存及发展打下坚实的基础。制定关键<br/><br/>     字策略,首先要寻找与页面主题相关的关键字,然后,再根据实际情况<br/><br/>     从中筛选出一部分合适的关键字。<br/><br/>     3.8.1 关键字寻找<br/><br/>     在对页面进行优化之前,要先根据页面的主题选择合适的关键字,这样<br/><br/>     才能达到事半功倍的效果。<br/><br/>     利用搜索引擎的相关搜索功能,我们可以轻松地找到与页面主题相关的<br/><br/>     关键字。具体操作如下:以页面主题名称作为关键字在搜索引擎中进行<br/><br/>     搜索,这样在搜索结果页面的底部就会展示出与该主题名称相关的关键<br/><br/>     字(这种关键字寻找方法适用于Google支持的所有语言)。<br/><br/>     例如,一个主题为“小游戏”的网站,我们就可以以“小游戏”作为关键字<br/><br/>     进行搜索。在搜索结果页面的底部就会展示出与“小游戏”相关的关键<br/><br/>     字,包括“在线小游戏”“4399小游戏”“小游戏大全”“双人小游戏”等,如<br/><br/>     图3-7所示。<br/><br/>     图 3-7 与“小游戏”相关的关键字<br/><br/>     此外,在中文里,我们还可以利用百度的关键字搜索功能 寻找更多相 6关的关键字。只要我们在搜索框中输入网站主题的名称“小游戏”,然<br/><br/>     后,点击“获取推荐关键字”按钮后即显示出与“小游戏”相关的关键字。<br/><br/>     如图3-8所示,在日检索量中,我们还可以得知对应关键字的日搜索<br/><br/>     量。<br/><br/>     百度的关键字搜索功能只提供给百度推广用户(www2.baidu.com)。<br/><br/>     图 3-8 百度相关搜索<br/><br/>     3.8.2 用户搜索习惯分析<br/><br/>     用户搜索习惯是指用户在搜索引擎中寻找相关信息时所使用的关键字形<br/><br/>     式,对于不同类别的产品,用户的搜索习惯会存在一定的差别,我们应<br/><br/>     该优先选择那些符合大部分用户搜索习惯的关键字形式。<br/><br/>     用户在搜索时使用不同的关键字会返回截然不同的搜索结果。对于同样<br/><br/>     的内容,如果页面中的关键字表达形式与用户的搜索习惯存在差异,则<br/><br/>     我们的页面相关性就会大大降低,甚至会被排除在搜索结果以外因为大<br/><br/>     6部分的用户是在寻找A,而你提供的却是B。<br/><br/>     我们可以通过统计用户在寻找同类产品时所使用的关键字形式,去分析<br/><br/>     用户的搜索习惯。但是,这样得到的关键字只适用于同类产品。对于不<br/><br/>     同类产品,我们还需要用同样的方法进行分析。<br/><br/>     例如,要分析用户在寻找与“佳能 EOS”相关的产品时的搜索习惯,我们<br/><br/>     可以在百度的相关搜索中输入关键字“佳能”,返回的搜索结果如图3-9<br/><br/>     所示。<br/><br/>     图 3-9 与“佳能”相关关键字<br/><br/>     其中,“佳能eos 450d”与“佳能450d”这两个关键字代表的是同一个产<br/><br/>     品。从日检索量中,我们可以看到关键字“佳能450d”比“佳能eos<br/><br/>     450d”的搜索量要更多一些,即在寻找“佳能eos 450d”这款产品时,用户<br/><br/>     更习惯使用关键字“佳能450d”而不是“佳能eos 450d”。<br/><br/>     由此推测,用户在寻找佳能EOS系列的产品,甚至是佳能数码相机的产<br/><br/>     品时,更习惯省略掉系列名称。因此,我们在为佳能数码相机产品制定<br/><br/>     关键字时,应该优先使用不包含系列名称的关键字形式,即“佳能+型<br/><br/>     号”。<br/><br/>     3.8.3 关键字评估<br/><br/>     经过关键字寻找及用户搜索习惯分析以后,我们得到了与页面主题相关<br/><br/>     且符合用户搜索习惯的关键字或关键字形式。接下来,就要对这些关键<br/><br/>     字进行详细的评估以确定所选的关键字是否具备优化可行性 。<br/><br/>     优化可行性是指某个关键字在我们目前的技术水平、资源等情况下,能否在合理的时间内实<br/><br/>     现既定的目标。<br/><br/>     关键字优化可行性评估包括关键字的搜索量、商业价值及竞争程度,目<br/><br/>     的是从中筛选出高搜索量、高相关性、低竞争的关键字,简称“二高一<br/><br/>     低”关键字。<br/><br/>     7<br/><br/>     7首先,我们要找出高搜索量的相关关键字;接下来,再从这些相关关键<br/><br/>     字的搜索结果中筛选出潜在的竞争对手;再评估部分潜在对手的基本情<br/><br/>     况;最后,筛选出二高一低的关键字。<br/><br/>     例如,对于关键字“小游戏”“在线小游戏”“免费小游戏”“休闲小游<br/><br/>     戏”及“迷你小游戏”,我们先对这些关键字的搜索量、商业价值及竞争<br/><br/>     对手网站的基本情况等多方面进行评估,再根据网站的实际情况,从中<br/><br/>     筛选出合适的关键字。<br/><br/>     1. 搜索量评估<br/><br/>     搜索量就是指关键字在某个搜索引擎上的检索量,高搜索量的关键字通<br/><br/>     常也伴随着高竞争。尽管如此,我们还是应该优先选择高搜索量的关键<br/><br/>     字,因为只有这样才有可能从中筛选出“二高一低”的关键字。<br/><br/>     利用搜索引擎提供的工具,我们可以查看相关关键字的大概搜索量。例<br/><br/>     如,对于简体中文,我们可以使用百度指数、百度关键字搜索功能及<br/><br/>     Google Adwords关键字规划师;而繁体中文,则可以使用雅虎奇摩的关<br/><br/>     键词选择工具;而对于英文,则可以使用Google Adwords关键字规划<br/><br/>     师。下面,我们将重点介绍其中比较常用的工具的使用方法。<br/><br/>     百度指数<br/><br/>     百度指数(工具地址:http:index.baidu.com)是展示网页搜索及<br/><br/>     新闻搜索数据的工具,它反映了关键字在百度系搜索引擎中的搜索<br/><br/>     量变化情况。利用百度指数,我们可以查看某个特定的关键字的大<br/><br/>     致搜索量,从而对关键字的搜索量进行更加准确的评估,如图3-10<br/><br/>     所示。图 3-10 关键字“手机”“智能手机”在百度中的搜索趋势情况<br/><br/>     在百度指数中,我们最多可以同时查询三个关键字,多个关键字之<br/><br/>     间要用逗号进行分隔。下面,我们来介绍一下百度指数里的一些参<br/><br/>     数说明。<br/><br/>     在图3-10中可以看到不同颜色的线条,表示不同的关键字的搜<br/><br/>     索量趋势,例如,蓝色就是表示“手机”的搜索指数 的变化情<br/><br/>     况,而粉色就是“智能手机”的搜索指数情况。<br/><br/>     新闻头条:选择新闻头条后,趋势线上就会显示对应时间内出<br/><br/>     现了多少指定关键字相关的新闻报道。<br/><br/>     曲线上的字母A、B、C、D,表示对应的关键字在某个时间点<br/><br/>     出现了比较热门的新闻。<br/><br/>     百度关键字工具<br/><br/>     百度关键字工具是提供给自身广告客户用于寻找关键字的工具,各<br/><br/>     项指标也是基于百度自身产生的数据,比较有代表性,详细请参考<br/><br/>     12.1节。<br/><br/>     Google Adwords关键字规划师<br/><br/>     Google Adwords关键字规划师是一个帮助广告客户选择关键字的工<br/><br/>     具。利用这个工具,我们可以查询指定关键字及与该关键字相关的<br/><br/>     8其他关键字的搜索量、搜索量变化趋势、广告客户竞争程度等信<br/><br/>     息,如图3-11所示。<br/><br/>     图 3-11 Google Adwords关键字规划师<br/><br/>     下面详细介绍一下这个工具的一个重要的功能——搜索新的关键字<br/><br/>     提示和广告组提示(即第一项功能),如图3-12所示,我们可以根<br/><br/>     据提示逐个输入要查询的关键字。图 3-12 搜索新的关键字提示和广告组提示<br/><br/>     1. 定位<br/><br/>     国家:可以查询关键字在所选指定国家、城市中的月均搜索<br/><br/>     量、竞争程度、建议出价等数据,如图3-13所示。图 3-13 国家条件定位<br/><br/>     语言:可以选择要查询的语言种类,如简体中文。<br/><br/>     范围:有两个选项,一是Google,即Google网站本身;另外一<br/><br/>     个是Google和搜索网络合作伙伴,即Google及所有嵌入Google<br/><br/>     搜索的第三方网站,如图3-14所示。<br/><br/>     图 3-14 数据来源定位<br/><br/>     2. 重要功能说明<br/><br/>     每月搜索量:指相应关键字过去12个月的搜索量趋势,如图3-<br/><br/>     15所示。图 3-15 月搜索量趋势图<br/><br/>     平均月搜索量:指相应关键字在过去12个月的月平均搜索量。<br/><br/>     竞争程度:该参与竞争该关键字的激烈程度。<br/><br/>     雅虎关键词选择工具<br/><br/>     雅虎提供的关键字选择工具(工具地<br/><br/>     址:https:signup41.marketingsolutions.yahoo.comsignupuisignuploadSignup.do<br/><br/>     也涉及多种语言,这里主要介绍在英文及繁体中文这两种语言里的<br/><br/>     使用方法。<br/><br/>     1. 英文<br/><br/>     由于2009年雅虎与微软签署的搜索合作协议,目前英文版的雅虎使<br/><br/>     用的是微软Bing的广告系统,在这里就不作详细介绍。因为Google<br/><br/>     在英文搜索市场占有的绝对优势,对于英文类关键字可以直接使用<br/><br/>     Google 关键字规划师工具进行查询即可。<br/><br/>     2. 繁体中文<br/><br/>     如果我们要查询繁体中文的关键字,那么在图3-16的Market中选<br/><br/>     择“Taiwan”就会跳到台湾的雅虎奇摩网页,如下所示。图 3-16 雅虎关键字广告地区选择<br/><br/>     点击“立即注册”,在成功注册后即可获取相应的权限。如图3-17所<br/><br/>     示,只要在右边输入需要查询的关键词,再点击“下一步:相关的<br/><br/>     关键词”,那么就会返回与指定关键词相关的关键词的月搜索量,如图3-18所示。9图 3-17 雅虎关键词选择工具<br/><br/>     图 3-18 与“网页设计”相关关键词的搜索量<br/><br/>     关键字查询工具里的数据反映的关键字在某特定搜索引擎中的搜索<br/><br/>     量。我们要综合两个或者多个搜索引擎的搜索量数据,才能从中寻<br/><br/>     找出更有价值的关键字。<br/><br/>     8搜索指数是百度指数用于定义对应关键字搜索量高低的一个指标,并非指实际搜索量。<br/><br/>     上述介绍为旧版雅虎奇摩的关键字工具使用方法。<br/><br/>     建议在对简体中文关键字进行搜索量评估时,最好使用百度提供的关键<br/><br/>     字工具。因为在简体中文搜索里,百度的用户是最多的,得到的数据误<br/><br/>     差会更少;同样道理,在评估英文关键字搜索量时,我们则可以使用<br/><br/>     Google提供的关键字工具,而对于繁体中文则应该选择雅虎奇摩。<br/><br/>     2. 商业价值评估<br/><br/>     关键字商业价值主要是以关键字在行业中的地位,以及能给商家带来的<br/><br/>     回报作为衡量标准,通常体现在该关键字的竞价价格上。例如,对于简<br/><br/>     体中文,可以参考百度的相关数据;对于繁体中文,则可以参考雅虎奇<br/><br/>     摩的相关数据;而对于英文则优先参考Google的相关数据。某些行业关<br/><br/>     键字,尽管搜索量不大,但却可以为商家带来可观的回报,也是兵家必<br/><br/>     争之地。<br/><br/>     利用百度的关键字估算工具,我们可以查询特定关键字的大概点击费<br/><br/>     用。例如,对于关键字“隆鼻”,在百度中排名前三时,每点击需要付出<br/><br/>     大约45元(人民币)左右的费用,如图3-19所示。<br/><br/>     图 3-19 关键字“隆鼻”在百度中的竞价费用估算<br/><br/>     另外一个可以查询关键字商业价值的工具就是Google Adwords里的关键<br/><br/>     8<br/><br/>     9字规划师工具。例如,关键字“隆鼻”,每点击的建议出价是 9.48元(人<br/><br/>     民币),如图3-20所示。<br/><br/>     图 3-20 关键字“隆鼻”在Google中的建议出价<br/><br/>     在雅虎奇摩的关键字选择工具中,目前并不提供最高费用的数据,只可<br/><br/>     以查询每一个关键词的建议价格。例如,对于关键词“网页设计”,如果<br/><br/>     我们每天要获得最大的点击量,那么每点击的建议出价是4.5元(新台<br/><br/>     币),如图3-21所示。<br/><br/>     图 3-21 关键词“网页设计”在雅虎奇摩中的建议价格<br/><br/>     从上面的结果中,我们看到“隆鼻”这个关键字,在中国大陆地区,尽管<br/><br/>     搜索量并不大,但却具有很高的商业价值。<br/><br/>     3. 关键字竞争<br/><br/>     关键字竞争,是指在搜索结果中参与优化该关键字的页面的多少。通<br/><br/>     常,人们会以关键字的相关搜索结果数来衡量该关键字的竞争程度。但<br/><br/>     是,我认为这样是不合理的。关键字的相关搜索结果数只能反映与该关<br/><br/>     键字相关的页面有多少,并不能说明参与优化该关键字的页面的多少。<br/><br/>     例如,对于关键字“甲苯”,我们在Google上进行搜索时,共返回了3 680<br/><br/>     000个相关结果,但这并不说明“甲苯”这个关键字就存在三百多万个竞<br/><br/>     争对手,如图3-22所示。图 3-22 关键字“甲苯”在Google中的搜索结果数<br/><br/>     一个关键字,不管在搜索引擎中返回多少个相关结果,一般真正参与竞<br/><br/>     争的只有前10~20个页面。对于一些极度热门的关键字,也有可能会超<br/><br/>     过50个。因此,我们只要分析、评估搜索结果的前10个页面就可以了解<br/><br/>     某一关键字的竞争情况。对关键字竞争的程度,我们主要从搜索结果及<br/><br/>     网页入手。<br/><br/>     搜索结果评估<br/><br/>     搜索结果评估就是对搜索结果中每个网页的摘要信息进行评估,包<br/><br/>     括网页的标题、描述内容及URL类型等。通过对搜索结果进行评<br/><br/>     估,我们就可以从中筛选出潜在的竞争对手。<br/><br/>     1. 标题<br/><br/>     对页面标题的评估,主要是查看页面的标题内容中是否包括主关键<br/><br/>     字,以及主关键字是否出现在标题的最前面。例如,在关键字“小<br/><br/>     游戏”的搜索结果中排名前几位的页面的标题有一个共同点,那就<br/><br/>     是标题中都包含主关键字“小游戏”,而且都出现在最前面。尽管这<br/><br/>     并不能说明这些页面就具备很强的竞争力,但至少说明该页面存在<br/><br/>     参与竞争的意识,如图3-23所示。图 3-23 关键字“小游戏”的部分搜索结果<br/><br/>     2. 描述信息<br/><br/>     页面描述信息评估主要是查看摘要信息中的描述内容,是以填充关<br/><br/>     键字为目的还是以介绍页面为主。那些在描述中简单填充关键字的<br/><br/>     网页,除非得到异常多的外部链接支持,否则竞争力是非常有限<br/><br/>     的,如图3-24所示。<br/><br/>     图 3-24 关键字“小游戏”其中一个搜索结果的摘要信息<br/><br/>     而有的页面描述则是对本页面进行详细的介绍,这不管对于普通用<br/><br/>     户还是搜索引擎都是非常友好的。这类网页就带着非常明显的优化<br/><br/>     目的,对搜索引擎优化也有相当的了解,如图3-25所示。<br/><br/>     图 3-25 关键字“小游戏”其中一个搜索结果的摘要信息<br/><br/>     3. URL<br/><br/>     对URL的评估主要是查看页面的URL类型(URL的权重关系如下:<br/><br/>     WWW子域名>其他子域名>目录),以及URL中是否包括关键字。<br/><br/>     如果在搜索结果中,大部分页面的URL都是WWW子域名或其<br/><br/>     他子域名,则说明这个关键字的竞争相对比较激烈,因为WWW<br/><br/>     子域名及其他子域名的权重比目录形式的URL要高。<br/><br/>     URL中是否包含与页面内容相关的关键字,也从一定程度上反<br/><br/>     映该页面的竞争实力。如果搜索结果中大部分页面的URL都包<br/><br/>     含所查询的关键字,那么这个关键字的竞争也是比较激烈的<br/><br/>     (但相对于WWW子域名与其他子域名就稍为缓和一点)。如<br/><br/>     图3-26所示,页面的URL中就包含了主关键字“canon a520”。图 3-26 关键字“canon a520”其中一个搜索结果的摘要信息<br/><br/>     页面评估<br/><br/>     经过对搜索结果中网页的标题、描述及URL信息进行评估,我们就<br/><br/>     可以从中筛选出部分潜在的竞争对手。接下来,我们就要评估这些<br/><br/>     潜在对手的竞争实力。<br/><br/>     一般情况下,我们会根据页面的关键字表现、页面结构、PR值及<br/><br/>     百度权重等方面去评估每一个潜在竞争对手的竞争实力。<br/><br/>     1. 关键字表现<br/><br/>     对关键字表现的评估主要是查看关键字在页面中的分布情况及权重<br/><br/>     标签的使用。<br/><br/>     查看关键字是否出现在页面的最前面(即最接近<body>标<br/><br/>     签),不管是以文本还是图片alt属性值的形式。如下面代码<br/><br/>     所示,关键字“小游戏”就出现在最接近<body>标签处:<br/><br/>     <body topmargin=0 ><br/><br/>     <table width=778 border=0 align=center cellpadding=0 cellspacing=0><tr><td width=218><br/><br/>     <a href=http:www.10flash.net>小游戏<a><td><tr><table><br/><br/>     页面中的关键字是否合理地结合标题(即<h1>等)、加粗、斜<br/><br/>     体、颜色属性等权重标签(详细请参考5.4节),从而突出关<br/><br/>     键字的重要性,提高页面相关性、如图3-27所示。图 3-27 关键字“近视治疗”在页面中的表现<br/><br/>     2. 网页结构<br/><br/>     评估网页结构是否合理,我们主要从网页内容分布的合理性、网页<br/><br/>     所使用的元素及展示内容的技术这几方面进行衡量。<br/><br/>     网页结构是否合理,主要是指页面中的重要内容是否出现在相<br/><br/>     对重要的位置上,即页面中主、辅关键字出现的频率是否上><br/><br/>     下、左>右(请参考第7章),如图3-28所示。<br/><br/>     如果一个页面是纯Flash页面,或者页面中存在很多对搜索引擎<br/><br/>     不利的元素,则这类页面也不存在多大的竞争(请参考第7<br/><br/>     章)。图 3-28 Seochat.org首页结构<br/><br/>     3. PR值<br/><br/>     Google PR值是衡量页面权重的一个重要指标,反映了网站结构、页面结构的合理性、内外部链接的数量及质量。页面的PR值越<br/><br/>     高,从一定程度上反映了该页面的实力越强。<br/><br/>     以Google PR值衡量一个页面的优劣非常简单、直观。但是,我们<br/><br/>     不能以Google PR值作为评估页面竞争力的唯一指标,而必须结合<br/><br/>     关键字表现、网页结构,缺少其中任何一个都可能造成对实际形势<br/><br/>     作出错误判断的严重后果。<br/><br/>     4. 百度权重<br/><br/>     所谓的百度权重 ,实为第三方网站或机构基于自身设计的算法对 10评估网站的评分系数,而非百度官方推出的权重查询工具。<br/><br/>     百度权重最主要的根据是待查询网站在百度获取流量的高低,百度<br/><br/>     权重越高,从一定程度上反映了待查询网站从百度上获得的流量就<br/><br/>     越高。图3-29所示为去查网对某网站的百度权重评估结果。<br/><br/>     图 3-29 百度权重查询<br/><br/>     百度流量只是一个估算值,对于小网站的估算偏差较接近,有一定的参考意义。<br/><br/>     3.8.4 关键字选择策略<br/><br/>     经过对关键字的搜索量、商业价值及竞争程度等进行综合评估,我们已<br/><br/>     经掌握了相关关键字的基本情况,接下来就是根据实际情况从中筛选出<br/><br/>     适合网站的关键字。<br/><br/>     1. 次关键字法<br/><br/>     通常,在选择关键字时,我们只会关注那些搜索量最大的关键字,而忽<br/><br/>     略一些搜索量接近、但竞争却相对较小的关键字(即二高一低关键<br/><br/>     字)。<br/><br/>     次关键字法就是优先选择那些搜索量比较少、但竞争却远没那么激烈的<br/><br/>     关键字。这样就可以避免与实力强大的网站直接竞争,从而降低网站优<br/><br/>     10<br/><br/>     11化的成本 ,提高投资回报率(如果你拥有强大的资源就另当别论)。<br/><br/>     优化成本主要包括时间及外部资源的投入。<br/><br/>     前面已经介绍了怎样去评估一个关键字的竞争程度,接下来要做的就是<br/><br/>     怎样在搜索量与竞争程度这两者中找出平衡点,选择适合网站的关键<br/><br/>     字。这就要求读者要准确地把握网站目前的处境,包括网站内外部资源<br/><br/>     及自身的优化水平等。<br/><br/>     例如,通过对“小游戏”与“在线小游”戏这两个关键字进行评估,我们发<br/><br/>     现“小游戏”的搜索量远大于“在线小游戏”,但是前者的竞争却非常激<br/><br/>     烈,前十名基本上都是行业著名网站,特别是在链接资源上占有绝对的<br/><br/>     优势,而关键字“在线小游戏”的搜索量仅次于“小游戏”,但竞争却<br/><br/>     比“小游戏”少得多。<br/><br/>     在这种情况下,如果没有足够的链接资源,我们只好退而求其次,选<br/><br/>     择“在线小游戏”,甚至同类中搜索量更低、竞争却少得多的关键字。<br/><br/>     2. 长尾策略<br/><br/>     长尾理论这个概念来自于克里斯·安德森的《长尾理论》一书,含义<br/><br/>     为:“只要存储和流通的渠道足够大,所有需求不旺或销量不佳的产品<br/><br/>     所占据的市场份额,都可以和那些少数热销产品所占据的市场份额相匹<br/><br/>     敌甚至大于它们,即众多小市场汇聚成可与主流大市场相匹敌的市场能<br/><br/>     量。”<br/><br/>     长尾理论应用在关键字策略制定方面就是极大限度地集中非热门关键字<br/><br/>     (以下简称为长尾关键字)带来的流量,以达到从搜索引擎获取流量最<br/><br/>     大化的目的。<br/><br/>     原理<br/><br/>     如果为网站中的每一个页面都制定合适的关键字,则会形成巨大的<br/><br/>     关键字集合。尽管在这个关键字集合里,关键字之间的搜索量会存<br/><br/>     在很大的差异。但是,这大量的关键字最终也能形成巨额的流量来<br/><br/>     源。<br/><br/>     例如,一个网站中有1000个页面,如果我们能为每个页面制定3个<br/><br/>     11<br/><br/>     11合适的关键字,则至少会产生了3000个与网站内容相关的关键字。<br/><br/>     如果每个关键字平均每天能从搜索引擎上引导过来一个用户,则该<br/><br/>     网站每天从搜索引擎中获取到的流量也相当可观。<br/><br/>     实施<br/><br/>     要实施长尾关键字策略,必须建立足够多的页面来承载这些相关的<br/><br/>     关键字,或者,在同一页面上制定多个相关的关键字。也就是说,实施长尾关键字策略的主要任务就是在合理的范围内为每一个页面<br/><br/>     制定尽可能多的合适的关键字。<br/><br/>     例如,在某手机网站中存在数十个品牌上万个产品,这样就产生了<br/><br/>     巨大的页面数量。只要我们为这些页面制定合适的主、辅关键字,那么就会形成大量的关键字,从而形成长尾关键字。<br/><br/>     对于承载长尾关键字的页面,优化的重点在于页面的内容,例如,页面的头部,即标题、描述、关键字标签及页面的主体内容(前提<br/><br/>     条件是这些关键字与页面内容是相关的),而非外部链接关系。<br/><br/>     在对页面的头部进行优化时,为了能在页面的标题及描述内容中表<br/><br/>     达多个相关关键字,我们通常利用分隔符对相关关键字进行组合的<br/><br/>     方式实现。<br/><br/>     例如,我们要在某个页面的标题中表达关键字“诺基亚N95”及与其<br/><br/>     相关的关键字“诺基亚N95手机”“诺基亚N95图片”“诺基亚N95报<br/><br/>     价”“诺基亚N95参数”,则可以把该页面的标题形式定为:“诺基亚<br/><br/>     N95手机图片|报价|参数”。<br/><br/>     对于页面的主体内容,主要是网页结构构建的问题。在构建网页结<br/><br/>     构时,我们尽量地把网页中相对重要的内容放在网站相对重要的区<br/><br/>     域上。例如,对于网站中的产品展示页面,产品详细介绍就是本网<br/><br/>     页的重点内容,那么,就应该把它放到网页的左边区域,而非右边<br/><br/>     的次要区域。如图3-30所示,在诺基亚N95这个产品展示页面上,与诺基亚N95相关的产品信息就是展示在页面中相对重要的左边区<br/><br/>     域。图 3-30 诺基亚N95产品展示页<br/><br/>     本章围绕关键字寻找与选择、关键字密度及分布等方面展开了说明。其<br/><br/>     中,关键字密度及分布直接影响到页面的相关性,而关键字的寻找与选<br/><br/>     择是开展网站优化的基础,相当于为网站制定优化目标,直接决定了网<br/><br/>     站优化的成败。第 4 章 URL优化<br/><br/>     URL相当于页面的地址,用户或搜索引擎都必须通过URL才能访问<br/><br/>     相应的页面。因此,对网站内部的优化也是从URL开始的。本章将<br/><br/>     详细介绍URL优化的每一个细节,包括URL各组成部分的命名技<br/><br/>     巧、分隔符的使用、URL长度、URL中关键字的词频及URL静态化<br/><br/>     处理方式等。<br/><br/>     本章内容<br/><br/>     URL优化简介<br/><br/>     URL简介<br/><br/>     URL命名技巧<br/><br/>     分隔符的使用<br/><br/>     URL长度<br/><br/>     关键字词频<br/><br/>     关键字结合<br/><br/>     URL各组成部分优化<br/><br/>     URL重定向<br/><br/>     URL静态化4.1 URL优化简介<br/><br/>     URL优化就是指通过对URL各组成部分进行适当的调整,以提高URL的<br/><br/>     搜索引擎友好性。它主要包括三大部分:第一,对域名、目录、文件的<br/><br/>     命名;第二,分隔符的使用;第三,URL长度及关键字词频的控制。这<br/><br/>     三部分之间是相互制约、相互影响的。在优化过程中,我们必须掌握好<br/><br/>     这三部分的内在联系,对各个部分进行充分的协调,这样才能达到最佳<br/><br/>     的优化效果,否则URL优化环节将功败垂成。<br/><br/>     URL优化是网站优化的六大重要环节之一,占据着重要的地位。不仅在<br/><br/>     决定页面相关性方面起着重要的作用,而且URL还会直接影响搜索引擎<br/><br/>     对页面的收录。在正式介绍URL优化之前,我们先来了解一下URL的组<br/><br/>     成及特点。4.2 URL简介<br/><br/>     URL,即Uniform Resource Locator,一般译为统一资源定位器,是<br/><br/>     Internet上用来描述信息或资源位置的字符串。URL的各组成部分从左至<br/><br/>     右分别是Internet资源类型、服务器地址、端口号、路径及文件名。<br/><br/>     Internet资源类型:也称为服务协议或者服务方式。例如http:表示<br/><br/>     WWW服务器,ftp:表示FTP服务器,gopher: 表示Gopher服务<br/><br/>     器,而new:表示新闻组。<br/><br/>     服务器地址:是指存放资源的服务器所使用的域名或IP地址,例如<br/><br/>     域名www.seochat.org或者IP219.133.35.208。<br/><br/>     端口号:有时候,在使用网站提供的某些服务时,还需要输入相应<br/><br/>     的端口号。例如,在http:www.seochat.org:8080中,8080就是端口<br/><br/>     号。<br/><br/>     路径:指资源或者信息在服务器上的位置,通常由“目录子目<br/><br/>     录”这样的结构组成。在实际应用中,我们常以中文、英文或拼音<br/><br/>     形式对目录、子目录进行命名。<br/><br/>     文件名:指资源或者网页的名称。同样,对文件名的命名也可以采<br/><br/>     用汉字、英文或拼音等形式。<br/><br/>     一个标准的URL格式应该为:Internet资源类型+服务器地址+端口号+路<br/><br/>     径+文件名,例如http:www.seochat.org:8080htmlseoindex.html就是一<br/><br/>     个标准的URL。下一节将介绍URL的命名技巧。4.3 URL命名技巧<br/><br/>     URL命名是针对URL各组成部分 而进行的,是URL优化中最重要的环<br/><br/>     节之一。URL命名的关键在于使用合适的关键字为URL各组成部分进行<br/><br/>     命名,即该关键字所表达的意义必须与URL所指向的页面的主题是相关<br/><br/>     的这有利于提高页面的相关性,突出页面的主题。<br/><br/>     在URL命名技巧里,URL各组成部分是指域名、组成路径的目录及文件名。<br/><br/>     例如,一个存放数码相机产品页面的目录,我们可以把该目录命名为<br/><br/>     digital camera,这样就可以有效突出目录的主题。如果我们选择另外一<br/><br/>     个毫不相关、但却更热门的关键字mobile作为该目录的名称,就毫无意<br/><br/>     义了。<br/><br/>     在实际中,我们常用汉字、英文及拼音这三种形式的关键字对URL各组<br/><br/>     成部分进行命名。接下来,分别从这三种常用的关键字命名形式出发,介绍URL的命名技巧。<br/><br/>     4.3.1 汉字命名形式<br/><br/>     要想使用关键字的汉字形式对URL组成部分进行命名,你目前所使用的<br/><br/>     Web服务器必须支持以中文名称访问相应的目录或者文件 。<br/><br/>     一般情况下,需要对Web服务器进行必要的配置后才能支持以中文名称访问相应的目录或者<br/><br/>     文件。<br/><br/>     在URL中,以关键字的汉字形式为URL组成部分进行命名要比使用英文<br/><br/>     或拼音更简单。因为,汉字形式的关键字不需要考虑分隔符等问题,只<br/><br/>     需选择与目录或者页面内容相关的中文关键字即可。但在简体中文的搜<br/><br/>     索引擎里,拼音形式的URL比汉字形式URL更受重视。例<br/><br/>     如,http:www.seochat.org搜索引擎优化就不如<br/><br/>     http:www.seochat.orgsousuoyinqingyouhua或<br/><br/>     者http:www.seochat.orgsearch-engine-optimization重要。<br/><br/>     但是,在繁体中文里,雅虎奇摩会更加重视英文及汉字形式命名的URL<br/><br/>     的 ,如图4-1所示。<br/><br/>     1<br/><br/>     1<br/><br/>     2<br/><br/>     2<br/><br/>     3<br/><br/>     3因为在繁体中文里极少使用拼音。<br/><br/>     图 4-1 以汉字形式命名的URL<br/><br/>     4.3.2 英文命名形式<br/><br/>     以关键字的英文形式为URL各组成部分进行命名是目前最常见的URL命<br/><br/>     名方式之一。在使用的时候,我们需要注意以下两点。<br/><br/>     使用一个实际存在的单词或者词组作为URL各组成部分名称。<br/><br/>     组成词组的单词之间必须使用分隔符进行分隔(请参考4.4节)。<br/><br/>     例如,http:www.seochat.orgdigital-camera中的digital camera就是<br/><br/>     用分隔符“-”进行分隔的。<br/><br/>     4.3.3 拼音命名形式<br/><br/>     目前,绝大多数中文搜索引擎都支持拼音形式的关键字搜索。也就是<br/><br/>     说,中文搜索引擎可以识别拼音形式的关键字。因此,我们也可以利用<br/><br/>     关键字的拼音形式对URL各组成部分进行命名,这对于提高中文页面的<br/><br/>     相关性方面起着非常重要的作用。<br/><br/>     例如,一个目录下存放与搜索引擎优化内容相关的页面,我们可以<br/><br/>     以“搜索引擎优化”的拼音形式对该目录进行命名,即http:www.seochat.orgsousuoyinqingyouhua。<br/><br/>     在使用关键字的拼音形式对URL各组成部分进行命名时,我们需要注意<br/><br/>     以下几点。<br/><br/>     每个字的拼音不需要采用分隔符进行分隔,搜索引擎也能识别,如<br/><br/>     图4-2所示。<br/><br/>     3图 4-2 “sousuoyinqingyouhua”搜索结果<br/><br/>     使用空格进行分隔后,显示的结果也是“搜索引擎优化”,如图4-3<br/><br/>     所示。<br/><br/>     图 4-3 “sou suo yin qing you hua”搜索结果<br/><br/>     考查搜索引擎是否能够识别我们所选择的关键字的拼音形式。首<br/><br/>     先,我们在搜索引擎中搜索该关键字的拼音形式,然后查看返回的<br/><br/>     结果是否与我们选择的关键字一致、是否存在歧义或者存在多音字<br/><br/>     等情况。例如,在Google搜索我的名字wuzexin(吴泽欣),由于<br/><br/>     我的名字在搜索引擎切词系统中是不存在的,因此我们能看到诸如<br/><br/>     舞者星、吴泽欣两个结果,明显存在歧义,如图4-4所示。<br/><br/>     图 4-4 wuzexin搜索结果<br/><br/>     在URL优化中,我们应该根据网站的实际情况选择其中一种最合适的关<br/><br/>     键字命名形式。同时,要避免在URL中使用与URL所指向的页面主题不<br/><br/>     相关的关键字。在前面介绍的三种URL关键字命名形式中,英文还存在<br/><br/>     分隔符问题,将在下一节进行详细介绍。4.4 分隔符的使用<br/><br/>     为了让搜索引擎能够正确识别以英文形式命名的URL中的关键字,我们<br/><br/>     需要使用相应的符号对词组之间的单词进行分隔,常见的分隔符包括:<br/><br/>     空格“ ”、横杠“-”、下划线“_”、逗号“,”及加号“+”等。<br/><br/>     例如,搜索引擎并不能识别digitalcamerabattery,因为这个单词在搜索<br/><br/>     引擎的切词系统中是不存在的,但却可以识别digital camera battery或者<br/><br/>     digital-camera-battery。<br/><br/>     说明 除了使用特定的符号作为分隔符外,还可以使用其他的方式<br/><br/>     来表达单词间的分隔意义,例如,将每个单词的第一个字母设为大<br/><br/>     写(如CamcorderBattery)。但这种方式只方便普通用户识别,对<br/><br/>     于搜索引擎来说却是无效 ......</div> <!--DuYiHuaAdd EndContent--></div> <div id="txtThisUrl"><br/>    <a href="http://www.100md.com/html/file/202002/143034.htm" target="_blank">http://www.100md.com/html/file/202002/143034.htm</a></div> <div id="txttips"><br/>您现在查看是摘要介绍页,<a href="http://www.100md.com/about/help.htm"> 详见PDF附件(13910KB,521页)</a>。</div> <script language="javascript" type="text/javascript" src="http://www.100md.com/comm/v2019/login.js"></script> <script language="javascript" type="text/javascript" src="http://www.100md.com/comm/v2019/after.js"></script> <div id="theRInfo"><script language="javascript" type="text/javascript" src="http://www.100md.com/rjs/file/202002/143034.js"></script><script language="javascript" type="text/javascript" src="http://www.100md.com/comm/v2019/related.js"></script></div> </div><div id="right"><script language="javascript" type="text/javascript" src="http://www.100md.com/comm/v2019/right.js"></script></div> </div><div id="copyright"><script language="javascript" type="text/javascript" src="http://www.100md.com/comm/v2019/copyright.js"></script></div></body></html>