[置顶] Lynx在线版以及浏览器插件

网络蜘蛛基本原理

网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
    对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从其它网页的链接中找到;另一个原因是存储技术和处理技术的问题,如果按照每个页面的平均大小为20K计算(包含图片),100亿网页的容量是100×2000G字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算,需要340台机器不停的下载一年时间,才能把所有网页下载完毕)。同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。

...

网页信噪比相关文章摘录

网页信噪比相关文章摘录

信噪比,即SNR(Signal to Noise Ratio)又称为讯噪比,狭义来讲是指放大器的输出信号的电压与同时输出的噪声电压的比。
  所谓网站中的网页信噪比是指和目标关键词相关的内容占总网站内容的比例。在网页优化中,搜索引擎主要抓取除去html标签后的文本内容,这部分内容可以认为是不失真声音信号,而同时产生的那部分html标签内容, 可以被认为是噪声。因此,网页信噪音比,可以这样理解:指网页中的文本内容部分与生成这些文本而产生的html标签内容的比率。声学中,信噪比越高,说明声音信号越清晰,同理,网页信噪比越高,说明页面中纯文本内容相对越多,搜索引擎抓取页面也越容易。减少网页中的图片、flash,将html转化为css样式表,封装css、js等,能大幅度提高网页信噪比。有用信息除以总代码长度。其实就是纯文本,除以代码长度。任何一种计算方法,都以蜘蛛读取最少数据获得最多有用信息为依据,这个原则是对搜索引擎最友好的原则。
...

如何把自己伪装成googlebot?

如何把自己伪装成googlebot? 断章取义自猎眼追词博客: 隐形页面是对搜索引擎显示的网页版本(与对使用者显示的版本不同),意图蒙骗搜索引擎及影响该网页在搜索索引中的排名。如果你是用IE,火狐或其他浏览器来打开这些被黑的网站,这个技术会对访问者的User Agent进行了判断,对于所有没有声称身份的访问,包括Baiduspider Googlebot等搜索引擎爬虫返回另一个结果,如果你要识别这种欺骗,你需要修改自己的浏览器设置,以搜索引擎爬虫的方式来浏览网页:

设置方法:

...
分页:[«]1[»]