当代搜索引擎
Google 由两名在斯坦福大学的博士生佩吉 (Larry Page) 和布林 (Sergey Brin) 开始。他们带来了一个给网页评估的新概念。这个概念, 称网页级别 (PageRank), 是从Google 算法[2]重要的开端 。网页级别十分倚赖导入链结 (incoming link) ,并利用这种每个导入某网页的链结相当于给该网页价值投一票的理论建立起逻辑系统。越多导入链结意味着该网页越有“价值”。而每个导入链结本身价值直接根据该链结从何而来的网页级别,以及相反的该页导出链结 (outgoing link) 。
在网页级别帮助下,Google 在服务相关的结果上证明它相当优异。Google 成为了最普遍和最成功的搜索引擎。由于网页级别度量了站点外因子, Google 感到它会比页内因子难以动手脚。
然而道高一尺魔高一丈。网站员们已经开发出对付Inktomi 搜索引擎的链结操作工具和计划。这些方法证明对Google 算法一样管用。许多站集中于交换、买卖大量链接。随着‘网站员寻求获取链结只单单要影响Google送更多流量给该站,而不管是否对站点访客有用否’这种行为增加,网页级别对原始算法的信赖度渐渐被破坏了。
此时,是Google 和其它查寻引擎对广大范围的站外因子仔细检视的时候。开发更加聪明的算法有其他原因。因特网已经膨胀到拥有非技术的广大族群。他们经常无法使用先进的提问技术来取得资讯;而且他们得面对比起发展早期更庞大资料、更复杂的索引。搜索引擎必须开发具备预测性、语义性、语言性和启发性算法。
目前,网页级别的缩小版仍然被显示在Google 工具条上,不过网页级别只不过是Google考虑在网页分级时超过100个因素里中的一个。
今天,大多数搜索引擎对它们的如何评等的算法保持秘密。搜索引擎也许使用上百因素在排列目录;每个因素本身和因素所占比重可能不断的在改变。
大部分当代搜索引擎优化的思路──哪些有效、哪些没效──这些很大部分在于观察与根据内线消息来的猜测。某些优化员得执行控制下的实验以取得不同优化方法的结果。
尽管如此,以下是搜索引擎发展它们算法时的一些考虑,另,这份Google 专利清单[3]也许读者可猜出他们会走哪条路线:
站点的年龄 自该网域注册后过多久 内容的年龄 新内容增加的规律性 链接的年龄,连接站点的名誉和其相关程度 一般站内因素 负面站内因素 (例如,太多关键字汇标(meta tag),很显然被优化过,会对站点造成伤害) 内容的独特性 使用于内容的相关术语 (搜索引擎关联到的术语的方式视同如何关联到网页的主要内容) Google网页级别 (只被使用在Google 的算法) 外在链接、外部链接的链结文字、在那些和在站点/网页包含的那些链接 引证和研究来源(表明内容是研究性质) 在搜索引擎数据库里列举的词根与其相关的术语(如 finance/financing) 导入的逆向链结,以及该链结的文字 一些导入链结的负面计分 (或许那些来自低价值页、被交换的逆向链结等) 逆向链结取得速率:太多太快意味着“不自然”的链结购买活动 围绕在导出链结、导入的逆向链结周围的文字。例如一个链结如果被 "Sponsored Links" (赞助商连结)包围,该链结可能会被忽略。 用 "rel=nofollow" 建议搜索引擎忽略该链接 在站点该文件的结构深度 从其他资源收集的网格表,譬如监视当搜寻结果导引用户到某页后,用户有多频繁按浏览器的返回钮 从来源像:Google AdWords/AdSense、Google 工具条等程序收集的网格表 从第三方资料分享协议收集的网格资料 (譬如监测站点流量的统计程式提供商) 删除导入链结的速率 使用子网域、在子网使用关键字和内容质量等等,以及从这些活动来的负面计分 和主文件语意上的连结 文件增加或改动的速率 主机服务商 IP 和该 IP 旗下其它站点的数量/质量
其他链结站会员 (link farm / link affiliation) 与被链结的站 (他们分享IP吗? 有一个共同的邮递地址在"联络我们 (Contact Us)" 页吗?) 技术细节像利用301重定向被移除的网页、对不存在网页显示404服务器标头而非200服务器标头、适当的利用 robots.txt 主机服务商正常运行时间 是否站点对不同类的用户显示不同的内容 (掩饰 (cloaking)) 未及时矫正、无效的导出的链结 不安全或非法内容 HTML代码品质,以及错误出现数 由搜索引擎自他们搜寻结果观察到的实际点击通过率评等 由最常存取搜寻结果的人手动评等
文章共6页: [
1] [
2] [
3] [
4] [
5] [
6]
更多的全面认识搜索引擎优化(SEO)请到论坛查看: http://BBS.TC711.COM
【 双击滚屏 】 【 评论 】 【 收藏 】 【 打印 】 【 关闭 】
来源:
互联网
日期:2008-12-19