這是jsoup-1.8.1.jar下載,jsoup 1.9.2.jar是一款功能強(qiáng)大的java編程處理html的開發(fā)包,擁有良好的可擴(kuò)展性api設(shè)計,可以開發(fā)出強(qiáng)大的html解析功能,有需要的朋友就來下載吧!
jsoup-1.8.1.jar是一款 Java 的HTML 解析器,可直接解析某個URL地址、HTML文本內(nèi)容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于JQuery的操作方法來取出和操作數(shù)據(jù)。
文檔輸入
jsoup 可以從包括字符串、URL地址以及本地文件來加載HTML 文檔,并生成Document 對象實(shí)例。
解析并提取HTML 元素
這部分涉及一個HTML 解析器最基本的功能,但jsoup使用一種有別于其他開源項目的方式——選擇器,我們將在最后一部分詳細(xì)介紹jsoup選擇器,本節(jié)中你將看到j(luò)soup是如何用最簡單的代碼實(shí)現(xiàn)。
修改數(shù)據(jù)
在解析文檔的同時,我們可能會需要對文檔中的某些元素進(jìn)行修改,例如我們可以為文檔中的所有圖片增加可點(diǎn)擊鏈接、修改鏈接地址或者是修改文本等。
HTML 文檔清理
jsoup 在提供強(qiáng)大的API 同時,人性化方面也做得非常好。在做網(wǎng)站的時候,經(jīng)常會提供用戶評論的功能。有些用戶比較淘氣,會搞一些腳本到評論內(nèi)容中,而這些腳本可能會破壞整個頁面的行為,更嚴(yán)重的是獲取一些機(jī)要信息,例如XSS 跨站點(diǎn)攻擊之類的。
修正了一個命名空間標(biāo)簽會causeelement cssselector失敗
修正了一個問題,其中包含非ASCII字符但帶有ASCII字符的標(biāo)簽名會導(dǎo)致分析器陷入無限循環(huán)中
修正了一個問題,API創(chuàng)建的XML文檔將有一個不正確的序言
修正了一個問題,你不能使用屬性選擇器找到包含不平衡括號或圓括號的值