這是poi-3.7-20101029.jar下載,多年以來,Apache POI已經(jīng)為所有項(xiàng)目支持的文件格式提供了基本的文本提取。另外,除了(簡單)文本之外,這些文件還提供對與給定文件相關(guān)聯(lián)的元數(shù)據(jù)的訪問,例如標(biāo)題和作者。
poi-3.7-20101029.jar是如果您是通過交鑰匙文本提。òㄗ钚轮С,樣式等),強(qiáng)烈建議您使用 Apache Tika,它將構(gòu)建在POI之上,以提供文本和元數(shù)據(jù)提取。如果您希望有一些非常簡單和獨(dú)立的東西,或者您希望進(jìn)行大量修改,那么POI提供的文本提取器可能會更適合您的需求。
所有POI文本提取器都從org.apache.poi.POITextExtractor擴(kuò)展 。這提供了所有提取器getText()的通用方法。在許多情況下,返回的文本將是您需要的。然而,許多提取器確實(shí)提供更有針對性的文本提取方法,因此您可能希望在某些情況下使用這些方法。
所有基于POIFS / OLE 2的文本提取器也從org.apache.poi.POIOLE2TextExtractor擴(kuò)展 。這另外提供了獲取HPFS文檔元數(shù)據(jù)的常用方法。
所有基于OOXML的文本提取器也從org.apache.poi.POIOOXMLTextExtractor擴(kuò)展 。這另外提供了獲取OOXML元數(shù)據(jù)的常用方法。
文字提取工廠
POI提供了一個(gè)常見的類,根據(jù)提供的文檔內(nèi)容為您選擇適當(dāng)?shù)奈谋咎崛∑鳌?org.apache.poi.extractor.ExtractorFactory提供與WorkbookFactory類似的功能。您只需傳遞一個(gè)InputStream,一個(gè)文件,一個(gè)POIFSFileSystem或一個(gè)OOXML包。它為您確定正確的文本提取器,并返回。
對于完整的檢測和文本提取器自動選擇,強(qiáng)烈建議用戶調(diào)查 Apache Tika。
Excel
對于.xls文件,有 org.apache.poi.hssf.extractor.ExcelExtractor,它將返回文本,可選地使用公式而不是其內(nèi)容。同樣,對于.xlsx文件,還有 org.apache.poi.xssf.extractor.XSSFExcelExtractor,它提供相同的功能。
對于那些在有限的內(nèi)存占用空間中工作的人員,還有兩個(gè)可用的Excel文本提取器。對于.xls文件,它是基于流式EventUserModel代碼的 org.apache.poi.hssf.extractor.EventBasedExcelExtractor,通常會提供較低的內(nèi)存占用以進(jìn)行提取。但是,正確輸出更復(fù)雜的公式將會出現(xiàn)問題,因?yàn)樗鼈兣c記錄一起工作,因此無法訪問復(fù)雜和共享公式的所有部分。對于.xlsx文件,等效的是 基于XSSF SAX事件代碼庫的org.apache.poi.xssf.extractor.XSSFEventBasedExcelExtractor。
詞
對于來自Word 97 - Word 2003的.doc文件,在暫存器中有 org.apache.poi.hwpf.extractor.WordExtractor,它將返回文檔的文本。
使用POI 3.7的用戶也可以使用scratchpad類org.apache.poi.hwpf.extractor.Word6Extractor從舊的Word 6和Word 95文件中提取簡單的文本內(nèi)容 。
對于.docx文件,相關(guān)類是 org.apache.poi.xwpf.extractor.XPFFWordExtractor
PowerPoint
對于.ppt文件,在暫存器中有 org.apache.poi.hslf.extractor.PowerPointExtractor,它將返回幻燈片的文本,可選地僅限于幻燈片文本或筆記文本。對于.pptx文件,要使用的類是 org.apache.poi.xslf.extractor.XSLFPowerPointExtractor
出版商
對于.pub文件,在暫存器中有 org.apache.poi.hpbf.extractor.PublisherExtractor,它將返回文件的文本。
Visio
對于.vsd文件,在暫存器中有 org.apache.poi.hdgf.extractor.VisioTextExtractor,它將返回文件的文本。
嵌入對象
Extractors已經(jīng)存在Excel,Word,PowerPoint和Visio; 如果這些對象之一嵌入到工作表中,則ExtractorFactory類可用于為其恢復(fù)提取器。
Java POI讀取Office excel (2003,2007)及相關(guān)jar包 其中必要的poi-ooxml-schemas-3.7-20101029.jar,對于操作word實(shí)現(xiàn)一些模板化的功能很有幫助的jar包.