07 Oct 2011
A web crawler, written for speed, in JAVA and Clojure
十一长假就快要过去了, 写的web crawler也告一段落: 速度能达到大概下载8万网页/小时, CPU和Mem的使用都比较满意: 运行40分钟的截图:
#### CPU, Mem使用
#### 网络使用(4M带宽,已极限)
#### 按status的分布
Crawler是Rss miner的一部分, git log查看, 已零星5个月, 这5个月的周末都耗在上面了, 其中大部分在crawler上, 数次大的重构或重写。
Crawer主要以Clojure和Java完成。 Clojure可以把程序写得很简洁, 利用Java可以很好的组织多线程, 面向对象 + functional, 感觉很不错。
开始, 我用Clojure了封装JDK 的 URLConnection, 由于Blocking, 为了加快速度, 需要使用多线程。
有一些问题, 例如:
- 线程少速度慢, 线程多了内存受不了, 我对内存较敏感, 有一部分是想挑战自己, 也有一部分是因为我的VPS只有512M内存, 想在上面跑Rss miner, 包括一个Web server, 一个Rss fetcher, 一个Web Crawler, 一个Online的实时推荐算法, 筹划中….
- URLConnection以[Stream](http://en.wikipedia.org/wiki/Stream_(computing)封装, 不是很方便。
- 如果各个线程分别自己保存自己下载的数据, Disk可能比较辛苦。 如果用Queue送给单独的一个线程处理, 又有一个额外的线程开销。
我寻找 Non-blocking的Http Client, 试用了两个, 都不太满意, 自己写了一个, 注重性能和稳定性。
实现:
- 4个线程, 每个线程都是一个Loop, 相互之间是Producer, Consumer的关系, 通过Queue和Event交流
- 管理状态比较多的,用Java实现, 比如用Tagsoup抽取链接和文本, 通过规则排除部分URL
- DNS prefetch, Pdnsd做DNS cache: UDP提前发送, 忽略结果。
- Java搭了一个简单的框架, 提供两个Interface, 由Clojure实现
public interface IHttpTask {
URI getUri();
Map<String, Object> getHeaders();
Object doTask(HttpResponse response) throws Exception;
Proxy getProxy();
}
public interface IHttpTaskProvder {
List<IHttpTask> getTasks();
}