分类 Linux 下的文章

SeimiCrawler+SeimiAgent完美解决动态页面渲染Ajax抓取问题

前言

曾几何时,动态页面(ajax,内部js二次渲染等等)信息提取一直都是爬虫开发者的心痛点,一句话,实在没有合适的工具。尤其在Java里面,像htmlunit这种工具都算得上解析动态页面的神器了,但是他依然不够完备,达不到浏览器级的解析效果,遇到稍微复杂点的页面就不行了。在经历的各种痛与恨后,笔者决定干脆开发一款专为应对抓取,监控,以及测试这类场景使用的动态页面渲染处理服务器。要达到浏览器级的效果,那必须基于浏览器内核来开发,幸运的是我们有开源的webkit,更为幸运的是我们有对开发者更为友好的QtWebkit。所以SeimiAgent就这样诞生了。

- 阅读剩余部分 -

Nginx正向代理

前言

有些时候总要避开某些限制,添加或是换一个网关出口,于是网络跳板即代理服务便派上了用场,故有此文备忘。同时也希望亦可帮到有同样需求的朋友。

- 阅读剩余部分 -