当前位置:首页 > JavaServer Page > 正文内容

几个open source的html parser的比较

canca18年前 (2007-08-19)JavaServer Page495

HTMLParser
最先是看见SourceForge上下载的包,真是有点大的吓人,一个小小的html parser, 居然有5M。下载回来,展开刨去文档等等杂乱的部分,source也还是不小的。用ant build过后,生成两个jar,htmlparser.jar(200k)和htmllexer.jar(56k)。我关心的是对html文件的剖析,所以只关心parser。试了一下,似乎独立的htmlparser.jar就可以了,不需要lib目录里面那些依赖的库。类的结构是比较清晰,划分的比较细致。source目录中有几个sample,都比较简单,很容易看懂。和使用xml parser感觉差不多,也有Event driver的接口,扩充一下也很容易生成DOM Tree,容易上手。

Jericho
一个简单小型的html parser,程序包比较小,500K左右,build出来的jar包40k, 相对于上面的html parser来说是小巧了很多。使用方面,Jericho没有提供类似SAX的接口,也不关注细部结构。对于Jericho核心概念是Segment,一个标记,一段内容,都是Segment,在这个概念层次之上是startTag, endTag等等。看了Jericho自己带的Sample,也都很简单,不过平时用惯了XML一套处理方法的人,会比较不习惯的,我想。源代码的质量一般,没有HTML Parser的好看。

NekoHTML
这是一个基于apache Xerces-j,依赖于Xerces-j的XNI接口。想到Xerces-j那么大的一个东西,就发毛,放弃。

Java HTML Parser
主页除了下载的连接,没有啥更多信息了,看着也比较让人发毛,没有试

TagSoup
主页上的download source链接断了,给作者发了信,很快有了答复,说修好了。编译出来的jar包30K,也算短小精悍。因为核心代码需要用模板生成,所以必须在有perl的环境中才能正常编译。没有文档,没有简单的Sample,看source,有些头晕,感觉更合适做编译原理语法分析和状态机这个部分的演示教材。
BTW: 主页上说,TagSoup的handler接口和SAX的handler非常相近,不过也没有明确的说,就是完全兼容的。

扫描二维码推送至手机访问。

版权声明:本文由Ant.Master's Blog发布,如需转载请注明出处。

本文链接:https://iant.work/post/564.html

标签: JavaServer Page
分享给朋友:

“几个open source的html parser的比较” 的相关文章

JBoss,Tomcat 中文URL支持方法

JBOSS 找到jboss4的deploy\jbossweb-tomcat50.sar\server.xml,编辑该文件,在下面的XML节点中增加红色的字<Connector port="8080" address="${jboss.bind.address}"  &nbs...

在web.xml不认<taglib>解决办法

在web.xml不认<taglib>解决办法: 如果是头是这样的<!DOCTYPE web-app PUBLIC "-//Sun Microsystems, Inc.//DTD Web Application&n...

<html:select>设置默认值

在ActionFrom的reset方法里赋初值就可以,这样不管是调用的action或jsp都会先调用reset方法。...

struts,ajax乱码解决方案

乱码问题好像跟我们中国程序员特别有缘,一直困扰着我们,从开始的JSP乱码问题,STRUTS乱码问题,到现在的AJAX乱码问题,无一不是搞得许多程序员焦头烂额的,整天骂XXX产品对中文支持不了,UTF-8无法使用中文啊什么的,其实这里面被骂的产品中其实99%以上是对中文支持非常好的,而出现乱码的原...

浏览网页时的错误代号

① 客户方错误    100  继续    101  交换协议  ② 成功    200  OK    201  已创建 &nbs...

FCKeditor的秘密

       哈哈。。由于项目的需要,这几天一直在搞FCKeditor。其实,FCKeditor配置很简单。但不知道怎么样。在我的项目里FCKeditor总不能在FireFox里显示。开始我还以为是我的配置有问题。但我从头到尾检查了配置文件...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。