当前位置：首页 > Java技术

爬虫技术之 htmlunit 使用入门

canca4年前 (2022-07-09)Java技术955

1 htmlunit简介

htmlunit是java实现的开源无界面浏览器，可以有效的加载动态页面。

2 htmlunit的获取

2.1 maven 构建

<dependency>
  <groupId>net.sourceforge.htmlunit</groupId>
  <artifactId>htmlunit</artifactId>
  <version>2.31</version>
</dependency>

2.2 官网下载

下载地址

3 具体使用

3.1获取页面

  //获取页面
        WebClient webClient=new WebClient();
        //是否开启js渲染
        webClient.getOptions().setJavaScriptEnabled(true);
        HtmlPage page=null;
        try {
            page=webClient.getPage("https://mp.csdn.net/");
            //等待页面渲染完成
            Thread.sleep(3000);
            //控制台打印出页面
            System.out.println(page.asXml());
        } catch (Exception e) {
            e.printStackTrace();
        }

3.2 一些设置

       //是否开启css渲染
        webClient.getOptions().setCssEnabled(false);
        //是否开启js渲染
        webClient.getOptions().setJavaScriptEnabled(true);
        //是否允许所有人链接(解决https证书不信任问题)
        webClient.getOptions().setUseInsecureSSL(true);
        //js失败是否抛出异常
        webClient.getOptions().setThrowExceptionOnScriptError(false);
        //是否启用重定向
        webClient.getOptions().setRedirectEnabled(true);

3.3 执行页面js

      //执行页面js,并获得结果，获取页面中变量_hmt的值
        ScriptResult t=page.executeJavaScript("_hmt ");
        System.out.println(t.getJavaScriptResult().toString());

3.4操作dom树，并触发相关事件

      //获取元素 类似js语法的操作方式
        DomElement domElement= page.getElementById("feedlist_id");
        try {
            //触发单击事件，获得新的页面
          HtmlPage page1= domElement.click();
        } catch (IOException e) {
            e.printStackTrace();
        }

3.5与httpclient相互转换

在爬虫使用时。可能涉及到这两个工具的结合使用，其实转换的核心就是cookie的转换

  //创建httpclient的客户端
        CookieStore cookieStore = new BasicCookieStore();
        CloseableHttpClient httpClient = HttpClients.custom()
                .setDefaultCookieStore(cookieStore)
                .build();
        //获取htmlunit cookie;
      Set<Cookie> htmlUnitCookies=  webClient.getCookieManager().getCookies();
      //将htmlunit cookie 转换成htmlclient cookie
      for(Cookie cookie:htmlUnitCookies){
          cookieStore.addCookie(new BasicClientCookie(cookie.getName(),cookie.getValue()));
      }
 
      //获取htmlclient cookie
        List<org.apache.http.cookie.Cookie> httpClientCookies= cookieStore.getCookies();
        //cookie 转换
        for(org.apache.http.cookie.Cookie cookie:httpClientCookies){
            webClient.getCookieManager().addCookie(new Cookie(cookie.getDomain(),cookie.getName(),cookie.getValue()));
        }

引用原文：https://blog.csdn.net/qq_34661726/article/details/80641474

扫描二维码推送至手机访问。

本文链接：https://iant.work/post/815.html

标签: htmlunit 爬虫

分享给朋友：

“爬虫技术之 htmlunit 使用入门” 的相关文章

对象序列化与反序列化

序列化，并不是JAVA独有的。因此，在这里我用比较通俗的话说了。序列化就是把一个对象转换成有规则的二进制流。而反序列化就是把有规则的二进制数据重整成一个对象。其好处不难看见：1.可以把一个对象...…

Socket与ServerSocket的问题

//服务器端:import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.io.PrintStream;import java.net.ServerSock…

Java语言的反射机制

由于项目的需要，在项目中要实现即插即用的方式，也就是说可以动态地加载包，不用设置CLASSPATH路径。当项目发布时，不可能要用户来设置环境变量吧！因此，就要用到JAVA的反射机制了。昨天，我是在研究JAVA的...…

JSP与Servlet的对应关系

以前在QQzone写下的文章现在贴到这里来了... 最近比较忙啊！现在抽身写一篇文章。是关于JSP与Servlet的对应关系的。希望对大家有所帮助。其实我也是刚刚学的......-------Servlet--------------JSP----------1.ServletContext&nbs…

IM技术(1)

做项目了，NetCL今天开工了，在这些日子里，我会将自己研究的内容写下来。做个记录，以下是我在网上搜到的。关于管理用户状态的解决方案，当然，我都有一个方案。不过对客户端的任务有点重吧，我方法是客...…

JAVA内部类终极实例

最近心情不好,不想说太多东西了!电脑坏了,我现在又病了. class ClassFactory{ private final static String userName = "Hello,My name is CAnca."; public static Thread in =…

爬虫技术之 htmlunit 使用入门

“爬虫技术之 htmlunit 使用入门” 的相关文章

对象序列化与反序列化

Socket与ServerSocket的问题

Java语言的反射机制

JSP与Servlet的对应关系

IM技术(1)

JAVA内部类终极实例

发表评论

Copyright © iAnt.Work. All Rights Reserved. 粤ICP备16116550号-5

Powered By Z-BlogPHP. Theme by TOYEAN.

爬虫技术之 htmlunit 使用入门

“爬虫技术之 htmlunit 使用入门” 的相关文章

对象序列化与反序列化

Socket与ServerSocket的问题

Java语言的反射机制

JSP与Servlet的对应关系

IM技术(1)

JAVA内部类终极实例

发表评论取消回复

Powered By Z-BlogPHP. Theme by TOYEAN.

发表评论