网页中正文提取之----joyhtml - 韩城飞雪 - ITeye博客

`

zhangwenlongchina

浏览: 62493 次
性别:
来自: 北京

最近访客更多访客>>

layhaokeai

dr0420

shl716

lmjava33

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

网页中正文提取之----joyhtml

博客分类：

html

阅读更多

joyHTML的目的是解析HTML文本当中的链接和正文，利用超链接密度法为主要判断依据的标记窗算法，采用DOM树解析模式。

环境描述：

jdk1.6

joyhtml-0.2.2

提取新闻正文demo代码如下：

import java.net.URL;
import org.cyberneko.html.parsers.DOMParser;
import org.joy.analyzer.html.TextExtractor;
import org.w3c.dom.Document;
import org.xml.sax.InputSource;

public class Test {
	public static void main(String[] args) throws Exception {
		DOMParser parser = new DOMParser();
		String url = "http://finance.people.com.cn/n/2013/1011/c66323-23157265.html";
		parser.parse(new InputSource(new URL(url).openStream()));
		Document doc = parser.getDocument();
		TextExtractor extractor = new TextExtractor(doc);
		String str = extractor.extract();
		System.out.println(str);

	}
}

依赖的lib参见附件

lib.rar (1.8 MB)
下载次数: 4

分享到：

Hibernate逆向工程 | java中利用Ftp向服务器传文件

2013-11-19 19:57
浏览 724
评论(0)
分类:Web前端
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

新闻正文提取之joyhtml: NULL 博文链接：https://snv.iteye.com/blog/1955333

IE资源提取武器-用于网页资源提取: IE资源提取武器-用于网页资源提取，你可以轻松提取网页上的资源

基于DOM-TREE网页正文提取方法: 利用DOM-TREE模型对网页进行表示对原始网页进行修正缺省标签的补充等利用网页正文提取方法对网页进行正文提取，去除网页中的噪声信息，提取出网页中的正文、相关超链接

Chrome缓存提取器-V1.3-溪水汉化版: Chrome浏览器好是好，可惜！！用它浏览视频网页后，下载的缓存...然而，使用免安装的“Chrome缓存提取器-V1.3-溪水汉化版”，却可以方便的把你浏览网页产生的视频、音频缓存文件提取出来，从而方便你日后“本地播放”。

wps office 2019 政府提取版-说明.docx: WPS2019最新政府直装版提取-无广告——附激活码

页面正文提取htmlcleaner-2.8.jar: HtmlCleanner HtmlCleaner极其短小精悍，源码一共只有260KB，并且速度惊人，只需要10毫秒左右就可以处理完HtmlParser需要300毫秒处理的Html页面。

RNA提取 RT－PCR技术专题: RNA提取 RT－PCR技术专题RNA提取 RT－PCR技术专题

百度网址提取器-baidu网址提取: 百度网址提取器 -baidu网址提取-baidu网址提取

微弱信号提取--改进时域平均法: 关于微弱信号提取一个改进方法的论文，个人觉得很好，特此分享

论文研究-基于标记窗的网页正文信息提取方法.pdf: 该方法不仅适合于处理一个网页中所有正文信息均放在一个td 中的情况，也适合于处理网页正文放在多个td中的情况，还可以处理网页正文文字短到与网页其余部分文字（如广告、导航条、版权）长度相当的情况。尤其重要的...

页面提取自－TCP-IP详解卷2：实现(第3部分): 页面提取自－TCP-IP详解卷2：实现(第3部分) 页面提取自－TCP-IP详解卷2：实现(第3部分)

地形高程提取工具 - 高程提取工具: 高程提取工具地形高程提取工具 - 高程提取工具

从txt里提取E-mail地址: 从txt文件里提取email地址 From: feedback@support.alibaba.com <feedback@support.alibaba.com> To: qbmgz@yahoo.com.cn <qbmgz@yahoo.com.cn> , qbmgz@gmail.com <qbmgz@gmail.com> 地址必须要用 <> 引起来

论文研究-基于FFT的网页正文提取算法研究与实现.pdf: 提出了通信网攻击效果评估的安全性能指标的选择、度量和评估的方法,利用OPNET构建了仿真模型,最后以接通率为例,对仿真结果进行了分析,得到了一些有意义的结论。

论文研究-基于结构相似网页聚类的正文提取算法研究.pdf: 针对当前互联网网页越来越多样化、复杂化的特点，提出一种基于结构相似网页聚类的网页正文提取算法，首先，根据组成网页前端模板各“块”对模板的贡献赋以不同的权重，其次计算两个网页中对应块的相似度，将各块的...

易语言网页正文提取算法源码-易语言: 易语言网页正文提取算法源码

玉米须总黄酮提取工艺---开题报告.doc: 玉米须总黄酮提取工艺---开题报告.doc

实验六、从茶叶中提取咖啡因-茶叶提取咖啡实验借鉴.pdf: 实验六、从茶叶中提取咖啡因-茶叶提取咖啡实验借鉴.pdf

页面提取自－TCP-IP详解卷2：实现(第2部分): 页面提取自－TCP-IP详解卷2：实现(第2部分) 页面提取自－TCP-IP详解卷2：实现(第2部分)

高分遥感影像信息处理与信息提取技术-汪闽: 高分遥感影像信息处理与信息提取技术-汪闽，高分遥感影像信息处理与信息提取技术-汪闽，高分遥感影像信息处理与信息提取技术-汪闽

Global site tag (gtag.js) - Google Analytics