這是htmlparser1.6源碼、文檔及jar包下載,是一個(gè)純的java寫的html解析的庫(kù),它不依賴于其它的java庫(kù)文件,主要用于改造或提取html。它能超高速解析html,而且不會(huì)出錯(cuò)。毫不夸張地說(shuō),htmlparser就是目前最好的html解析和分析的工具。無(wú)論你是想抓取網(wǎng)頁(yè)數(shù)據(jù)還是改造html的內(nèi)容,用了htmlparser絕對(duì)會(huì)忍不住稱贊。
htmlparser1.6源碼、文檔及jar包是過(guò)濾器 (Filters),訪問(wèn)者模式 (Visitors),處理自定義標(biāo)簽以及易于使用的 JavaBeans。正如 HtmlParser 首頁(yè)所說(shuō):它是一個(gè)快速,健壯以及嚴(yán)格測(cè)試過(guò)的組件;以它設(shè)計(jì)的簡(jiǎn)潔,程序運(yùn)行的速度以及處理 Internet 上真實(shí)網(wǎng)頁(yè)的能力吸引著越來(lái)越多的開發(fā)者。 本文中就是利用HtmlParser 里提取網(wǎng)頁(yè)里的鏈接,實(shí)現(xiàn)簡(jiǎn)易爬蟲里的關(guān)鍵部分。HtmlParser 最新的版本是HtmlParser1.6。
這篇文章介紹了 HtmlParser 開源包和 HttpClient 開源包使用在此基礎(chǔ)上實(shí)現(xiàn)了個(gè)簡(jiǎn)易網(wǎng)絡(luò)爬蟲 (Crawler)來(lái)介紹說(shuō)明如何使用 HtmlParser 根據(jù)需要處理 Internet 上網(wǎng)頁(yè)以及如何使用 HttpClient 來(lái)簡(jiǎn)化 Get 和 Post 請(qǐng)求操作構(gòu)建強(qiáng)大網(wǎng)絡(luò)應(yīng)用 。
HTTP 協(xié)議是現(xiàn)在因特網(wǎng)最重要協(xié)議的除了 WEB 瀏覽器的外 WEB 服務(wù)基于網(wǎng)絡(luò)應(yīng)用以及日益增長(zhǎng)網(wǎng)絡(luò)計(jì)算不斷擴(kuò)展著 HTTP 協(xié)議角色使得越來(lái)越多應(yīng)用需要 HTTP 協(xié)議支持雖然 JAVA 類庫(kù) .net 包提供了基本功能來(lái)使用 HTTP 協(xié)議訪問(wèn)網(wǎng)絡(luò)資源但是其靈活性和功能遠(yuǎn)不能滿足很多應(yīng)用需要而 Jakarta Commons HttpClient 組件尋求提供更為靈活更加高效 HTTP 協(xié)議支持簡(jiǎn)化基于 HTTP 協(xié)議應(yīng)用創(chuàng)建 HttpClient 提供了很多特性支持最新 HTTP 標(biāo)準(zhǔn)可以訪問(wèn)這里了解更多有關(guān) HttpClinet 詳細(xì)信息目前有很多開源項(xiàng)目都用到了 HttpClient 提供 HTTP功能登陸網(wǎng)址可以查看這些項(xiàng)目本文中使用 HttpClinet 提供類庫(kù)來(lái)訪問(wèn)和下載 Internet上面網(wǎng)頁(yè)在后續(xù)部分會(huì)詳細(xì)介紹到其提供兩種請(qǐng)求網(wǎng)絡(luò)資源思路方法: Get 請(qǐng)求和 Post 請(qǐng)求Apatche 提供免費(fèi) HTTPClien t源碼和 JAR 包下載可以登陸這里 下載最新HttpClient 組件筆者使用是 HttpClient3.1 。