joyHTML的目的是解析HTML文本当中的链接和正文,利用超链接密度法为主要判断依据的标记窗算法,采用DOM树解析模式。
环境描述:
jdk1.6
joyhtml-0.2.2
提取新闻正文demo代码如下:
import java.net.URL; import org.cyberneko.html.parsers.DOMParser; import org.joy.analyzer.html.TextExtractor; import org.w3c.dom.Document; import org.xml.sax.InputSource; public class Test { public static void main(String[] args) throws Exception { DOMParser parser = new DOMParser(); String url = "http://finance.people.com.cn/n/2013/1011/c66323-23157265.html"; parser.parse(new InputSource(new URL(url).openStream())); Document doc = parser.getDocument(); TextExtractor extractor = new TextExtractor(doc); String str = extractor.extract(); System.out.println(str); } }
依赖的lib参见附件
相关推荐
NULL 博文链接:https://snv.iteye.com/blog/1955333
IE资源提取武器-用于网页资源提取,你可以轻松提取网页上的资源
利用DOM-TREE模型对网页进行表示 对原始网页进行修正缺省标签的补充等 利用网页正文提取方法对网页进行正文提取,去除网页中的噪声信息,提取出网页中的正文、相关超链接
Chrome浏览器好是好,可惜!!用它浏览视频网页后,下载的缓存...然而,使用免安装的“Chrome缓存提取器-V1.3-溪水汉化版”,却可以方便的把你浏览网页产生的视频、音频缓存文件提取出来,从而方便你日后“本地播放”。
WPS2019最新政府直装版提取-无广告——附激活码
HtmlCleanner HtmlCleaner极其短小精悍,源码一共只有260KB,并且速度惊人,只需要10毫秒左右就可以处理完HtmlParser需要300毫秒处理的Html页面。
RNA提取 RT-PCR技术专题RNA提取 RT-PCR技术专题
百度网址提取器 -baidu网址提取-baidu网址提取
关于微弱信号提取一个改进方法的论文,个人觉得很好,特此分享
该方法不仅适合于处理一个网页中所有正文信息均放在一个td 中的情况,也适合于处理网页正文放在多个td中的情况,还可以处理网页正文文字短到与网页其余部分文字(如广告、导航条、版权)长度相当的情况。尤其重要的...
页面提取自-TCP-IP详解卷2:实现(第3部分) 页面提取自-TCP-IP详解卷2:实现(第3部分)
高程提取工具 地形高程提取工具 - 高程提取工具
从txt文件里提取email地址 From: feedback@support.alibaba.com <feedback@support.alibaba.com> To: qbmgz@yahoo.com.cn <qbmgz@yahoo.com.cn> , qbmgz@gmail.com <qbmgz@gmail.com> 地址必须要用 <> 引起来
提出了通信网攻击效果评估的安全性能指标的选择、度量和评估的方法,利用OPNET构建了仿真模型,最后以接通率为例,对仿真结果进行了分析,得到了一些有意义的结论。
针对当前互联网网页越来越多样化、复杂化的特点,提出一种基于结构相似网页聚类的网页正文提取算法,首先,根据组成网页前端模板各“块”对模板的贡献赋以不同的权重,其次计算两个网页中对应块的相似度,将各块的...
易语言网页正文提取算法源码
玉米须总黄酮提取工艺---开题报告.doc
实验六、从茶叶中提取咖啡因-茶叶提取咖啡实验借鉴.pdf
页面提取自-TCP-IP详解卷2:实现(第2部分) 页面提取自-TCP-IP详解卷2:实现(第2部分)
高分遥感影像信息处理与信息提取技术-汪闽,高分遥感影像信息处理与信息提取技术-汪闽,高分遥感影像信息处理与信息提取技术-汪闽