国产成人精品亚洲777人妖,欧美日韩精品一区视频,最新亚洲国产,国产乱码精品一区二区亚洲

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

java獲取文件編碼,jsoup獲取html純文本操作

瀏覽:3日期:2022-08-26 17:12:55

maven引入獲取編碼的jar

<dependency> <groupId>com.ibm.icu</groupId> <artifactId>icu4j</artifactId> <version>67.1</version> </dependency>

獲取文件編碼

package com.lovnx.note.util;import com.ibm.icu.text.CharsetDetector;import com.ibm.icu.text.CharsetMatch;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.select.Elements; import java.io.IOException;import java.net.URL;import java.nio.file.Files;import java.nio.file.Path;import java.nio.file.Paths; /** * @author @256g的胃 * @ClassName HtmlParse * @Description * @Date 15:32 2020/7/9 **/public class HtmlParse { public static String getEncode(String filePath) throws IOException { Path path = Paths.get(filePath); byte[] data = Files.readAllBytes(path); CharsetDetector detector = new CharsetDetector(); detector.setText(data); CharsetMatch match = detector.detect(); String encoding = match.getName(); System.out.println('The Content in ' + match.getName()); return encoding; } public static void main(String[] args) throws Exception { System.out.println(HtmlParse.getEncode('/Users/cxt/Downloads/test.html')); }}

上面獲取文件編碼是為了在服務(wù)器根據(jù)文件流下載文件時(shí)防止文件亂碼直接指定編碼格式,然后再根據(jù)下載下來的文件識(shí)別純文本

Document doc = Jsoup.parse('讀取的文本字符串,此處應(yīng)該是帶html標(biāo)簽的');

String text = doc.text();

jsoup也支持 直接指定文件的形式去獲取純文本

參考 https://jsoup.org/

補(bǔ)充知識(shí):java 解析html/讀取html內(nèi)容

jsoup

String 轉(zhuǎn)化

1、Document doc = Jsoup.parse(html);

例如:

String html = '<html><head><title>First parse</title></head>' + '<body><p>Parsed HTML into a doc.</p></body></html>'; Document doc = Jsoup.parse(html); System.out.println(doc.text()); ;

常用api

2、獲取節(jié)點(diǎn)文本:Document.text();

以上這篇java獲取文件編碼,jsoup獲取html純文本操作就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持好吧啦網(wǎng)。

標(biāo)簽: Java
主站蜘蛛池模板: 二手房| 宁津县| 花莲市| 梧州市| 甘谷县| 宿松县| 友谊县| 仲巴县| 英超| 绥滨县| 定安县| 渭南市| 航空| 永济市| 新疆| 延庆县| 嘉义市| 延寿县| 社会| 黄大仙区| 申扎县| 文成县| 乌鲁木齐县| 任丘市| 将乐县| 邵阳市| 马边| 河西区| 江油市| 腾冲县| 灵寿县| 云龙县| 亚东县| 蕲春县| 绍兴县| 精河县| 荥经县| 准格尔旗| 图木舒克市| 玉林市| 天长市|