聯系我們 - 廣告服務 - 聯系電話:
您的當前位置: > 關注 > > 正文

java爬蟲框架介紹:Heritrix優勢劣勢

來源:CSDN 時間:2023-02-24 11:13:33

爬蟲框架介紹 Heritrix 優勢劣勢簡單demo地址 crawler4j 優勢劣勢簡單demo地址 WebMagic 優勢劣勢簡單demo地址 快速入門 seimicrawler項目地址簡單爬蟲實現 導入項目編寫爬蟲啟動爬蟲 同系列文章


(資料圖片僅供參考)

爬蟲框架介紹

java爬蟲框架非常多,比如較早的有Heritrix,輕量級的crawler4j,還有現在最火的WebMagic。 他們各有各的優勢和劣勢,我這里順便簡單介紹一下吧。

Heritrix

優勢

java的第一批爬蟲框架,擁有獨立的后臺頁面,可以實現界面操作去爬去網頁。

劣勢

相對其他框架,代碼相對臃腫,上手難度較高,解析網頁不如其他框架靈活。

簡單demo地址

https://github.com/a252937166/Heritrix

crawler4j

優勢

代碼相當輕量級,可實現多線程爬取,上手難度低。

劣勢

封裝程度太低,很多功能需要開發者自己封裝實現,多線程下,很容易重復爬取相同資源。

簡單demo地址

https://github.com/a252937166/crawler4j

WebMagic

優勢

這框架我們公司在用,各方面都比較完美吧,上手難度低,社區活躍度也較高,有問題可以得到及時反饋。

劣勢

沒有持久層框架的封裝,需要自己實現。

簡單demo地址

這個框架我沒有自己的demo,大家可以去開發者的GitHub看看 https://github.com/code4craft/webmagic

快速入門

seimicrawler

我這里推薦使用seimicrawler,個人感覺這個框架配合JsoupXpath,解析網頁真心非常方便,而且框架整合了spring,用起來也很順手。

項目地址

中文官網地址:http://seimicrawler.org/ 官方Github地址:https://github.com/zhegexiaohuozi/SeimiCrawler 自己修改項目地址:https://github.com/a252937166/seimicrawler/

簡單爬蟲實現

導入項目

下載源碼,解壓后把demo目錄的文件單獨拿出來,project目錄不用管,里面是這個框架的一些源碼,demo直接maven依賴它就可以了。 以maven的形式,導入demo,等待jar拉取玩,項目不報錯就說明導入成功了。

編寫爬蟲

打開crawlers文件夾,里面每個文件都是一個爬蟲,我們可以學習一下Basic,這是開發者寫的最簡單的爬蟲demo,其他的都可以以此內推。

package com.ouyang.crawlers;import cn.wanghaomiao.seimi.annotation.Crawler;import cn.wanghaomiao.seimi.def.BaseSeimiCrawler;import cn.wanghaomiao.seimi.struct.Request;import cn.wanghaomiao.seimi.struct.Response;import cn.wanghaomiao.xpath.model.JXDocument;import java.util.HashMap;import java.util.List;import java.util.Map;/** * @author 汪浩淼 [et.tw@163.com] * @since 2015/10/21. */@Crawler(name = "basic")public class Basic extends BaseSeimiCrawler {@Override    public String[] startUrls() {        //兩個是測試去重的        return new String[]{"http://www.cnblogs.com/","http://www.cnblogs.com/"};    }    @Override    public void start(Response response) {        JXDocument doc = response.document();        try {            List

責任編輯:

標簽:

相關推薦:

精彩放送:

新聞聚焦
Top 岛国精品在线