csatblogspotdotcom: How to rip a website

2011-03-25 17:04

这两天对比了下各种web crawlers，写了些心得。

websites ripping 也叫 websites mirroring，或者叫websites crawling或websites spidering，对应的工具当然也叫 web crawlers, ants, automatic indexers, bots, web spiders, web robots, 或者web rippers。不花钱可以直接免费使用或试用的软件有以下一些：

scrapbook（浏览器插件）
总体来说，这个已经很不错了，比较全面，健壮。它目前有这么两个缺点：1.对于flash里面的菜单，不能下载，例如flash里面有个链接，点进去之后跳转到的那个页面不能下载；2.不能更新已下载页面，也不能续载。另外还有一个不是缺点的缺点：已下载的网站不能像工程一样去管理，但这样也有这样的好处：方便scrapbook开发人员，也方便一般用户，所有直接生成到一个目录里，想移走时直接把文件夹移走即可。

WebSaver网博士（客户端）：
简直就是个玩具！它把网页保存成自己定义的wsb格式文件，看不到flash部分，而且只能保存单个页面，在win7 64中想导出来还死掉。直接关掉程序，删之。
现在发现居然在IE右键里还有，重启浏览器还在！幸好没加到firefox里，这个土软件。

saveasplus（浏览器插件）
也只能保存单个页面，而且有flash的地方有问题。保存完后，提示网文快捕CyberArticle功能更多，可惜这个是收费软件，不理它

downthemall（浏览器插件）
可以选择下载这个页面以及里面链接的东西，可以多线程下载。它是为方便下载而设计，而不是为下载网页或网站而设计。

SurfOffline（Offline browser）
可以下载整个网站（试用），并导出（付费后才能使用），但我拔网线后没看出如何离线浏览，更别说用需要收费的导出功能了。放弃之。

wget
用wget -r -p -k -np http://***/下载下来上10个文件，flash没有。不给力。
用wget -m http://***/居然还是那样。不给力。

Backstreet Browser（Offline browser）
下载普通网站，例如www.google.com，没问题。复杂一点的，例如含有flash的还是有问题。而且下载的时候明明指定了往里3层，但下载下来的只有一个网页，而且网页里面缺flash以及其它一些东西。不知道是网站屏蔽了这种软件还是这个软件自身就没这个能力。总之用起来不及scrapbook。

PageNest（Offline browser）
也是个offline browser，也是flash有问题。而下载整个站时，在win7 64系统和XP下都极容易假死，多等会儿就会下完。软件不健壮，而且专业版的要收费。放弃之。

Xaldon WebSpider 2（客户端）
德国的东西，德文看不懂，居然都不英化。客户端软件，不知道咋用

spiderzilla（firefox插件）
firefox的一个扩展，内核是HTTrack

WinHTTrack和 and WebHTrack（客户端）

是HTTrack的GUI版本

HTTrack
HTTrack自己声称为一个offline browser，但wikipedia把它定义为一个web crawler，也叫offline browser，或者website mirroring software
不用spiderzilla这种包装过的HTTrack之类的了，直接到HTTrack官网下载了一个64位客户端版本，即WinHTTrack。用起来感觉这个软件比较健壮，等下完网站再说吧。居然也有下载进度条，而且是每个文件都有自己的进度条，很人性化，可以看出这个软件比较成熟
不错不错。能把所有页面全下载下来，flash以及里面的链接也没问题，而且可以手动更新和下载之前没下完的文件。另外，它支持所有平台。而且下载下来的网站可以像管理一个工程一样去管理。很好很强大。

最后，自己排下名：

1. HTTrack（包括其GUI版本的WinHTTrack和WebHTrack，以及firefox插件spiderzilla）

2. scrapbook

3. 其余的全部当玩具吧

后记：

发现HTTrack有个不好的地方，就是每个网页源文件中都加入了HTTrack的下载说明，虽然只有一行。

Labels: Coding, Linux, Operation and Maintenance, Windows

csatblogspotdotcom

Friday, June 10, 2011

How to rip a website

0 Comments:

About Me

Previous Posts