csatblogspotdotcom

Friday, June 10, 2011

How to rip a website

2011-03-25 17:04

这两天对比了下各种web crawlers,写了些心得。

websites ripping 也叫 websites mirroring,或者叫websites crawling或websites spidering,对应的工具当然也叫 web crawlers, ants, automatic indexers, bots, web spiders, web robots, 或者web rippers。不花钱可以直接免费使用或试用的软件有以下一些:



scrapbook(浏览器插件)
总体来说,这个已经很不错了,比较全面,健壮。它目前有这么两个缺点:1.对于flash里面的菜单,不能下载,例如flash里面有个链接,点进去之后跳转到的那个页面不能下载;2.不能更新已下载页面,也不能续载。另外还有一个不是缺点的缺点:已下载的网站不能像工程一样去管理,但这样也有这样的好处:方便scrapbook开发人员,也方便一般用户,所有直接生成到一个目录里,想移走时直接把文件夹移走即可。



WebSaver网博士(客户端):
简直就是个玩具!它把网页保存成自己定义的wsb格式文件,看不到flash部分,而且只能保存单个页面,在win7 64中想导出来还死掉。直接关掉程序,删之。
现在发现居然在IE右键里还有,重启浏览器还在!幸好没加到firefox里,这个土软件。



saveasplus(浏览器插件)
也只能保存单个页面,而且有flash的地方有问题。保存完后,提示网文快捕CyberArticle功能更多,可惜这个是收费软件,不理它



downthemall(浏览器插件)
可以选择下载这个页面以及里面链接的东西,可以多线程下载。它是为方便下载而设计,而不是为下载网页或网站而设计。



SurfOffline(Offline browser)
可以下载整个网站(试用),并导出(付费后才能使用),但我拔网线后没看出如何离线浏览,更别说用需要收费的导出功能了。放弃之。



wget
用wget -r -p -k -np http://***/下载下来上10个文件,flash没有。不给力。
用wget -m http://***/居然还是那样。不给力。



Backstreet Browser(Offline browser)
下载普通网站,例如www.google.com,没问题。复杂一点的,例如含有flash的还是有问题。而且下载的时候明明指定了往里3层,但下载下来的只有一个网页,而且网页里面缺flash以及其它一些东西。不知道是网站屏蔽了这种软件还是这个软件自身就没这个能力。总之用起来不及scrapbook。



PageNest(Offline browser)
也是个offline browser,也是flash有问题。而下载整个站时,在win7 64系统和XP下都极容易假死,多等会儿就会下完。软件不健壮,而且专业版的要收费。放弃之。



Xaldon WebSpider 2(客户端)
德国的东西,德文看不懂,居然都不英化。客户端软件,不知道咋用



spiderzilla(firefox插件)
firefox的一个扩展,内核是HTTrack



WinHTTrack和 and WebHTrack(客户端)

是HTTrack的GUI版本



HTTrack
HTTrack自己声称为一个offline browser,但wikipedia把它定义为一个web crawler,也叫offline browser,或者website mirroring software
不用spiderzilla这种包装过的HTTrack之类的了,直接到HTTrack官网下载了一个64位客户端版本,即WinHTTrack。用起来感觉这个软件比较健壮,等下完网站再说吧。居然也有下载进度条,而且是每个文件都有自己的进度条,很人性化,可以看出这个软件比较成熟
不错不错。能把所有页面全下载下来,flash以及里面的链接也没问题,而且可以手动更新和下载之前没下完的文件。另外,它支持所有平台。而且下载下来的网站可以像管理一个工程一样去管理。很好很强大。





最后,自己排下名:

1. HTTrack(包括其GUI版本的WinHTTrack和WebHTrack,以及firefox插件spiderzilla)

2. scrapbook

3. 其余的全部当玩具吧





后记:

发现HTTrack有个不好的地方,就是每个网页源文件中都加入了HTTrack的下载说明,虽然只有一行。

Labels: , , ,

0 Comments:

Post a Comment

Subscribe to Post Comments [Atom]

<< Home