Html网页正文提取 Html2Article.zip


.NET平台下,一个高效的从Html中提取正文的工具。 正文提取采用了基于文本密度的提取算法,支持从压缩的Html文档中提取正文,每个页面平均提取时间为30ms,正确率到95%以上。 Html2Article有如下特点: 标签无关,提取正文不依赖标签。 支持从压缩的html文档中提取正文内容。 支持带标签输出原始正文。 核心算法简洁高效,平均提取时间在30ms左右。 使用示例: /// <summary> /// 文章正文数据模型 /// </summary> public class Article { public string Title { get; set; } /// <summary> /// 正文文本 /// </summary> public string Content { get; set; } /// <summary> /// 带标签正文 /// </summary> public string ContentWithTags { get; set; } public DateTime PublishDate { get; set; } }// html为你要提取的html文本 string html = "<html>....<html>"; Article article = Html2Article.GetArticle(html); 标签:网页提取 网页正文提取




































































- 1


- 粉丝: 438
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 反垄断法之电子商务市场反垄断规制(BB交易市场).doc
- 平面设计实施方案实训六Photoshop色彩调整.doc
- 初探网络游戏虚拟财产保险法律问题.doc
- 2017年度大数据时代的互联网信息安全考试及答案.doc
- 基于大数据的高职英语写作教学改革探讨.docx
- 基于云计算医疗物资供应商管理平台解决方案.docx
- 初中信息技术教学如何提升学生的网络学习能力.docx
- 基于PLC控制的打地鼠游戏装置的设计与制作.docx
- 移动互联网技术在物业管理中的应用.docx
- 大数据时代下如何做好初中英语课堂的教学改革.docx
- 计算机科学及其技术的发展趋势研究.docx
- 无线网络视频监控系统实施方案概述.doc
- 互联网金融专业化销售流程.ppt
- VB宿舍文档管理系统论文范文.doc
- 项目管理学概论作业题答案.doc
- 单片机步进电动机控制系统方案设计书.doc


