水淼·万能文章采集器(SMGod)

1 MB/网络辅助

简介 相关 评论

简介

水淼·万能文章采集器(SMGod)是一款基于高精度正文识别算法的互联网文章采集器。支持按关键词采集百度等搜索引擎的新闻源(news.baidu.com)和泛网页(www.baidu.com),支持采集指定网站栏目下的全部文章。

软件介绍

此算法由水淼自主研发,可以在一个网页里提取出正文部分,通常精度可以达到95%,如果再进一步设置最少字数,采集的文章的精度(正确性)可以达到99%。同时>
文章标题也实现99%的提取精度。当然,一些网页排版格式比较混乱、不规则时,该精度可能有所下降。

软件功能

正文提取算法有3种模式,标准、严格、精确标签。大多数情况,标准和严格模式是相同的提取结果。下面说的是特殊情况:
标准模式:即一般性提取,大多数时候能够精确提取正文,但一些特殊页面会导致提取到一些不需要内容(但本模式能够较好识别类似百度经验的文章页面)
严格模式:顾名思义,比标准模式严格一点,可以很大程度避免不相关内容提取为正文,但对于特殊分段页面如百度经验的页面(不是一般<p></p><br>段落,而是有格式的多个独立div段),一般只能提取到某一段,而标准模式则可以提取全部段。
精确标签:当标准和严格模式不管用时,可以精确指定目标正文的标签头。本模式只适合网络批处理。
所以可以根据实际情况来切换模式。可以使用本地批处理的读网页正文功能来测试指定网页适合哪种模式提取。

软件说明

应用平台:WinXP, Win7, Win8, Win10, WinAll

软件截图

 水淼·万能文章采集器(SMGod)

展开

同类推荐

相关文章