当前位置:首页 > Java技术

过滤网页HTML标记

canca19年前 (2007-06-23)Java技术536

JAVA过滤HTML中的所有标记。非常好用!!过滤网页HTML标记 - CAnca - Ant Software Studio

package canca.regex;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class HtmlFilter {
 
 private Pattern p;
 private Matcher m;

 public String htmlChanger(String regEx, String htmlTag, String replaceStr) {

  String ret = "";
  try {
   p = Pattern.compile(regEx);// 设置比较模式
   m = p.matcher(htmlTag);
   boolean rs = m.find();
   ret = p.matcher(htmlTag).replaceAll(replaceStr);
  } catch (Exception e) {
   e.printStackTrace();
  }
  return ret;
 }

 public static void main(String[] args) {
 
  String htmlToChange = "<html><head><title>测试</title></head><body><p>中国人</p></body></html>"; //你要转换的HTML标记。
  
  String yourRegEx = "(<\\s*[a-zA-Z][^>]*>)|(</\\s*[a-zA-Z][^>]*>)";  //这个就是对应的去掉HTML标记的正则表达式
  
  String replaceStr = "";  //这个是你要将它替换的字符串,因为你要消去HTML标记,所以这里用空串。
  
  HtmlFliter fliter = new HtmlFliter();
  
  String result = fliter.htmlChanger(yourRegEx, htmlToChange, replaceStr);
  
  System.out.println("---->: " + result);
 }
}

当然如果去掉<style></style>
<script></script>也许有些不好用。
试试下面的正则表达式。
(<\\s*script\\s*>\\s*([a-zA-Z])*\\s*|([\\一-\\龥])*|([^\\x00-\\xff])*</\\s*script\\s*>)

(<\\s*style\\s*>)\\s*([a-zA-Z])*\\s*|([\\一-\\龥])*|([^\\x00-\\xff])*(</\\s*style\\s*>)

扫描二维码推送至手机访问。

版权声明:本文由Ant.Master's Blog发布,如需转载请注明出处。

本文链接:https://iant.work/post/601.html

标签: Java技术
分享给朋友:

“过滤网页HTML标记” 的相关文章

Java语言的反射机制

    由于项目的需要,在项目中要实现即插即用的方式,也就是说可以动态地加载包,不用设置CLASSPATH路径。当项目发布时,不可能要用户来设置环境变量吧!因此,就要用到JAVA的反射机制了。昨天,我是在研究JAVA的...…

JSP与Servlet的对应关系

以前在QQzone写下的文章现在贴到这里来了... 最近比较忙啊!现在抽身写一篇文章。是关于JSP与Servlet的对应关系的。希望对大家有所帮助。其实我也是刚刚学的......-------Servlet--------------JSP----------1.ServletContext&nbs…

JAVA内部类终极实例

最近心情不好,不想说太多东西了!电脑坏了,我现在又病了. class ClassFactory{ private final static String userName = "Hello,My name is CAnca."; public static Thread in =…

Java代理详话简说

        Java的代理,使项目实现低藕合成为可能。Spring框架中的AOP,内部就是用Java代理来实现。因此,认识JAVA代理原理对学习学Spring AOP是有密切关系的。    &nb…

Java安装后JDK/bin目录下的众多exe文件的用途

javac:Java编译器,将Java源代码换成字节代 java:Java解释器,直接从类文件执行Java应用程序代码 appletviewer(小程序浏览器):一种执行HTML文件上的Java小程序类的Java浏览器 javadoc:根据Java源代码及其说明语句生成的HTML文档 jdb…

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。