admin管理员组
文章数量:1130349

Jsoup

文章目录

Jsoup
导入依赖
获取信息
数据筛选

Jsoup

Jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。
爬虫可以用于搜索引擎，内容检索，数据采集分析等，十分强大，黑客感十足，不过不要为所欲为(~~面向监狱编程~~)，要合理利用。

Jsoup官网
中文文档

导入依赖

不会maven可参考我的另一篇博客

	  <dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.10.2</version></dependency>

获取信息

以在CSDN搜索jsoup为例，请求该URL，查看你所需信息标签的id或class，用Jsoup返回浏览器Document对象，然后可以用js的方法获取对象和操作。

package com.wzl.utils;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.IOException;
import java.net.MalformedURLException;
import java.net.URL;public class HtmlParseUtil {public static void main(String[] args) throws IOException {//获取请求（需联网）String url=".do?q=jsoup&t=&u=";//解析网页(Jsoup返回浏览器Document对象，可以使用Js的方法)Document document=Jsoup.parse(new URL(url),60000);//设置60s超时Elements elements=document.getElementsByClass("search-list J_search");for (Element el:elements) {System.out.println(el.html());System.out.println("=================");}}
}

控制台输出结果

至此就获取到了我们想要的信息。

数据筛选

然后就是对获取到的数据进一步处理和解析，比如筛选标签内的核心内容等。使用前端document对象的方法，提取标题，地址，作者等，然后可以把这些数据再封装成你自己的类等，这里直接输出演示。
查找DOM元素

方法	用法
getElementById(String id)	通过id来获取
getElementsByTag(String tagName)	通过标签名字来获取
getElementsByClass(String className)	通过类名来获取
getElementsByAttribute(String key)	通过属性名字来获取
getElementsByAttributeValue(String key, String value)	通过指定的属性名字，属性值来获取
getAllElements()	获取所有元素

package com.wzl.utils;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.IOException;
import java.net.MalformedURLException;
import java.net.URL;public class HtmlParseUtil {public static void main(String[] args) throws IOException {//获取请求（需联网）String url=".do?q=jsoup&t=&u=";//解析网页(Jsoup返回浏览器Document对象，可以使用Js的方法)Document document=Jsoup.parse(new URL(url),60000);//设置60s超时Elements elements=document.getElementsByClass("search-list J_search");for (Element el:elements) {//System.out.println(el.html());String title=el.getElementsByTag("a").eq(0).text();//标题String href=el.getElementsByTag("a").eq(0).attr("href");//博客地址(第一个<a>里)String writer=el.getElementsByTag("a").eq(1).text();//作者(第二个<a>里)String count=el.getElementsByClass("mr16").html();//浏览量String time=el.getElementsByClass("date").html();//时间System.out.println("标题："+title);System.out.println("地址："+href);System.out.println("作者："+writer);System.out.println("浏览量："+count);System.out.println("时间："+time);System.out.println("=================");}}
}

输出结果：

还可以用jsoup的选择器来进行筛选，也很方便：Element.select(String selector) 和 Elements.select(String selector) ，作用异曲同工，都是查找DOM元素，选择器对更复杂的筛选条件有优势。
引用官方文档介绍

Selector选择器概述
tagname: 通过标签查找元素，比如：a
ns|tag: 通过标签在命名空间查找元素，比如：可以用 fb|name 语法来查找 fb:name 元素
#id: 通过ID查找元素，比如：#logo
.class: 通过class名称查找元素，比如：.masthead
[attribute]: 利用属性查找元素，比如：[href]
[^attr]: 利用属性名前缀来查找元素，比如：可以用[^data-] 来查找带有HTML5 Dataset属性的元素
[attr=value]: 利用属性值来查找元素，比如：[width=500]
[attr^=value], [attr$=value], [attr*=value]: 利用匹配属性值开头、结尾或包含属性值来查找元素，比如：[href*=/path/]
[attr~=regex]: 利用属性值匹配正则表达式来查找元素，比如： img[src~=(?i).(png|jpe?g)]
*: 这个符号将匹配所有元素
Selector选择器组合使用
el#id: 元素+ID，比如： div#logo
el.class: 元素+class，比如： div.masthead
el[attr]: 元素+class，比如： a[href]
任意组合，比如：a[href].highlight
ancestor child: 查找某个元素下子元素，比如：可以用.body p 查找在"body"元素下的所有 p元素
parent > child: 查找某个父元素下的直接子元素，比如：可以用div.content > p 查找 p 元素，也可以用body > * 查找body标签下所有直接子元素
siblingA + siblingB: 查找在A元素之前第一个同级元素B，比如：div.head + div
siblingA ~ siblingX: 查找A元素之前的同级X元素，比如：h1 ~ p
el, el, el:多个选择器组合，查找匹配任一选择器的唯一元素，例如：div.masthead, div.logo

总结爬取数据思路：获取请求、返回页面信息、筛选所需数据。

相关推荐(将爬取数据导出到Excel)
POI和EasyExcel-你还在为导入导出数据苦恼吗？

原创不易，请勿转载（~~本不富裕的访问量雪上加霜~~ ）
博主首页：
如果文章对你有帮助，记得关注点赞收藏❤

Jsoup

文章目录

Jsoup
导入依赖
获取信息
数据筛选

Jsoup

导入依赖

不会maven可参考我的另一篇博客

	  <dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.10.2</version></dependency>

获取信息

以在CSDN搜索jsoup为例，请求该URL，查看你所需信息标签的id或class，用Jsoup返回浏览器Document对象，然后可以用js的方法获取对象和操作。

package com.wzl.utils;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.IOException;
import java.net.MalformedURLException;
import java.net.URL;public class HtmlParseUtil {public static void main(String[] args) throws IOException {//获取请求（需联网）String url=".do?q=jsoup&t=&u=";//解析网页(Jsoup返回浏览器Document对象，可以使用Js的方法)Document document=Jsoup.parse(new URL(url),60000);//设置60s超时Elements elements=document.getElementsByClass("search-list J_search");for (Element el:elements) {System.out.println(el.html());System.out.println("=================");}}
}

控制台输出结果

至此就获取到了我们想要的信息。

数据筛选

方法	用法
getElementById(String id)	通过id来获取
getElementsByTag(String tagName)	通过标签名字来获取
getElementsByClass(String className)	通过类名来获取
getElementsByAttribute(String key)	通过属性名字来获取
getElementsByAttributeValue(String key, String value)	通过指定的属性名字，属性值来获取
getAllElements()	获取所有元素

package com.wzl.utils;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.IOException;
import java.net.MalformedURLException;
import java.net.URL;public class HtmlParseUtil {public static void main(String[] args) throws IOException {//获取请求（需联网）String url=".do?q=jsoup&t=&u=";//解析网页(Jsoup返回浏览器Document对象，可以使用Js的方法)Document document=Jsoup.parse(new URL(url),60000);//设置60s超时Elements elements=document.getElementsByClass("search-list J_search");for (Element el:elements) {//System.out.println(el.html());String title=el.getElementsByTag("a").eq(0).text();//标题String href=el.getElementsByTag("a").eq(0).attr("href");//博客地址(第一个<a>里)String writer=el.getElementsByTag("a").eq(1).text();//作者(第二个<a>里)String count=el.getElementsByClass("mr16").html();//浏览量String time=el.getElementsByClass("date").html();//时间System.out.println("标题："+title);System.out.println("地址："+href);System.out.println("作者："+writer);System.out.println("浏览量："+count);System.out.println("时间："+time);System.out.println("=================");}}
}

Selector选择器概述
tagname: 通过标签查找元素，比如：a
ns|tag: 通过标签在命名空间查找元素，比如：可以用 fb|name 语法来查找 fb:name 元素
#id: 通过ID查找元素，比如：#logo
.class: 通过class名称查找元素，比如：.masthead
[attribute]: 利用属性查找元素，比如：[href]
[^attr]: 利用属性名前缀来查找元素，比如：可以用[^data-] 来查找带有HTML5 Dataset属性的元素
[attr=value]: 利用属性值来查找元素，比如：[width=500]
[attr^=value], [attr$=value], [attr*=value]: 利用匹配属性值开头、结尾或包含属性值来查找元素，比如：[href*=/path/]
[attr~=regex]: 利用属性值匹配正则表达式来查找元素，比如： img[src~=(?i).(png|jpe?g)]
*: 这个符号将匹配所有元素
Selector选择器组合使用
el#id: 元素+ID，比如： div#logo
el.class: 元素+class，比如： div.masthead
el[attr]: 元素+class，比如： a[href]
任意组合，比如：a[href].highlight
ancestor child: 查找某个元素下子元素，比如：可以用.body p 查找在"body"元素下的所有 p元素
parent > child: 查找某个父元素下的直接子元素，比如：可以用div.content > p 查找 p 元素，也可以用body > * 查找body标签下所有直接子元素
siblingA + siblingB: 查找在A元素之前第一个同级元素B，比如：div.head + div
siblingA ~ siblingX: 查找A元素之前的同级X元素，比如：h1 ~ p
el, el, el:多个选择器组合，查找匹配任一选择器的唯一元素，例如：div.masthead, div.logo

总结爬取数据思路：获取请求、返回页面信息、筛选所需数据。

相关推荐(将爬取数据导出到Excel)
POI和EasyExcel-你还在为导入导出数据苦恼吗？

原创不易，请勿转载（~~本不富裕的访问量雪上加霜~~ ）
博主首页：
如果文章对你有帮助，记得关注点赞收藏❤

本文标签： Jsoup

版权声明：本文标题：Jsoup 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://it.en369.cn/IT/1686516187a4749.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

369IT编程

Jsoup

Jsoup

文章目录

Jsoup

导入依赖

获取信息

数据筛选

Jsoup

文章目录

Jsoup

导入依赖

获取信息

数据筛选

更多相关文章

Jsoup

Java网络爬虫,基于Jsoup实现 (快速爬取)

发表评论

推荐文章

vscode中无法激活conda虚拟环境

python基础安装知识

英文文献翻译神器SCITranslate V17--一键翻译整篇文献

jdk-8u162-windows-x64.exe下载JDK

Lively与Wallpaper Engine全面对比：开源方案的优势与局限

热门文章

Steam游戏免费入库下载

在Windows上创建和查看Python虚拟环境

windows terminal 添加 Anaconda Powershell Prompt

ChatGPT在软件测试中七大应用方式

Linux Mint17.3安装搜狗输入法

两种破解ROS软路由器的密码的方法

《精解Windows8》——第1章 超越传统 1.1革命性的Windows操作系统

电脑c盘满了怎么清理 让电脑恢复原来的速度

联想服务器光驱重新系统,如何使用联想VISTA恢复光盘安装系统

精选3款论文翻译神器，直接翻译PDF全文英文文献！

最新文章

Sublime 32位 激活码

windows下载安装远程桌面工具RealVNC-Server教程(RealVNC_E4_6_1版带注册码)

【亲测免费】 抖音直播伴侣推流密钥获取工具使用教程

【亲测免费】 Proxifer 安装包与注册码

Royal TSX许可证密钥(6.x后所有版本都可以用)

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

WordPress get parent category taxonomy

Omit specific product categories from WooCommerce shortcode

Updating Posts table in database without overwriting user generated content

php - Use wp_get_recent_posts with search term

responsive - How to exclude an image size from the Wordpress srcset

《精解Windows8》——第1章　超越传统 1.1革命性的Windows操作系统

电脑c盘满了怎么清理让电脑恢复原来的速度

Sublime 32位激活码

【亲测免费】抖音直播伴侣推流密钥获取工具使用教程