整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

软件推荐丨GoldDataSpider - 网页数据抽取工具

击右上方,关注开源中国OSC头条号,获取最新技术资讯

GoldDataSpider 是用于抓取网页和抽取数据的工具。其核心代码是从金色数据抓取融合平台分离而来。

该项目提供抓取和抽取来自网页数据,不仅可以抽取网页内的内容,还能抽取URL、HTTP报头、Cookie里的数据。

该项目定义了一种简洁、灵活、敏捷的结构或者说是规则语法。极尽其所能将网页内容、HTTP报头、Cookie、甚至关联其它网页、其它网站数据,抽取出有意义有价值数据字段,组成一条数据记录。除此之外,还能内嵌http请求,以补充数据字段,比如某些字段需要向词典提供翻译这样的字段等等。

该项目还可支持从各种类型文档抽取数据,比如html/xml/json/javascript/text等。

我们还提供了规则可视化配制,请下载采集数量不受限、爬虫数量不受限、导出数据数量不受限的完全免费金色数据平台社区版 。以及详尽的文档

使用入门

首先,我们需要将依赖加入项目当中,如下:

1、对于maven项目

<dependency>
 <groupId>com.100shouhou.golddata</groupId>
 <artifactId>golddata-spider</artifactId>
 <version>1.1.3</version>
</dependency>

2、对于gradle项目

 compile group: 'com.100shouhou.golddata', name: 'golddata-spider', version: '1.1.3'

然后你将可以使用该依赖所提供的简洁清晰的API,如下:

@Test
public void testGoldSpider(){
 String ruleContent=
 " { \n"+
 " __node: li.sky.skyid \n"+
 " date: \n"+
 " { \n"+
 " expr: h1 \n"+
 " __label: 日期 \n"+
 " } \n"+
 " sn: \n"+
 " { \n"+
 " \n"+
 " js: md5(baseUri+item.date+headers['Content-Type']);\n"+
 " } \n"+
 " weather: \n"+
 " { \n"+
 " expr: p.wea \n"+
 " } \n"+
 " temprature: \n"+
 " { \n"+
 " expr: p.tem>i \n"+
 " } \n"+
 " } \n";
 GoldSpider spider= com.xst.golddata.GoldSpider.newSpider()
 .setUrl("http://www.weather.com.cn/weather/101020100.shtml")
 .setRule(ruleContent)
 .request();
 List list=spider.extractList();
 // List<Weather> weathers=spider.extractList(Weather.class);
 // Weather weathers=spider.extractFirst(Weather.class);
 list.forEach( System.out::println);
}

运行上面的测试,你将可以看类似下面的输出:

{date=19日(今天), weather=阴转小雨, temprature=10℃, sn=8bc265cb2bf23b6764b75144b255d81d}
{date=20日(明天), weather=小雨转多云, temprature=11℃, sn=9efd7e7bbbfb9bb06e04c0c990568bfd}
{date=21日(后天), weather=多云转中雨, temprature=11℃, sn=728539ac882721187741708860324afa}
{date=22日(周六), weather=小雨, temprature=9℃, sn=a23fa2233e750a3bdd11b2e200ed06c3}
{date=23日(周日), weather=小雨转多云, temprature=8℃, sn=b27e1b8a8e92a7bed384ceb3e4fdfb5f}
{date=24日(周一), weather=多云转小雨, temprature=8℃, sn=c142b7fd12330ca031dd96b307c0d50d}
{date=25日(周二), weather=小雨转中雨, temprature=6℃, sn=16f71d3c8f09394588532a3ed1a8bacf}

当作Service或者API使用

你可以在项目中,可以当作调用服务和API使用。例如如下:

@Service
public class WeatherServiceImpl implements WeatherService{
	public List<Weather> listByCityId(Long cityId){
		String url="http://www.weather.com.cn/weather/"+cityId+".shtml"
	 String rule="<同上>"
		GoldSpider spider= com.xst.golddata.GoldSpider.newSpider()
						.setUrl(url)
						.setRule(ruleContent)
						.request();
 
 return spider.extractList(Weather.class); 
	}
}

对于可视化配制,可以参考免费社区版文档。以下就免费社区版做简单介绍 ,详情见官网!

免费社区版:

开源/免费

让用户更好理解和使用产品

我们针对数据采集免费,还开放和维护核心的开源代码项目。让用户可以更好的使用、理解采集,用好采集。 让用户在各种场景应用金色数据采集带来的便利,我们有信心让客户见到一个开放的数据平台,让用户放心/省心/省力。

自由/灵活

透出一股强大的采集核心

我们的采集器,将向用户暴露一切目标数据,除了常规网页内容,还有如URL、HTTP报头、Cookie等。还提供了各种解析工具和函数,让用户不仅能得到网页内容里的数据,还能得到URL、HTTP报头、Cookie里隐藏的核心数据,还能灵活做到智能防封。

分布式采集

私有云,更灵活,更安全,更放心

可以根据自身需求,随意部署采集器数量,7*24小时不间断运行,采集后端集中灵活控制。可自由指挥数据在哪个采集器采集。可定义定时采集,无需人员值守。

数据可关联可追踪

恢复/重建数据内在与外在价值

可以让每条数据随着目标网站目标内容更新(如商品价格)、而更新用户应用表该条数据相关字段内容。

非侵入式融合

融合从未如此现实和简单

完全可以在不改变用户应用表结构(增删改表列),而将采集数据融入到应用表中。

自动化/一体化

无需人力操作,即抓即用

不只是采集可以自动化抓取,融合也提供了手动化和强大自动化功能。还将采集与融合操作无缝对接,可将目标数据抓一条融合一条,实时流向应用表,做到即抓即用!

点击下方链接,获取软件下载地址↓↓↓

GoldDataSpider首页、文档和下载 - 网页数据抽取工具 - 开源中国

九月在厦门举行的金砖国家领导人第九次会晤,备受国际社会关注。以“下一个金色十年,你将收获哪些金砖福利?”为主题,新华网邀请中央对外联络部原副部长于洪君、中国国际问题研究院副院长荣鹰,解读厦门会晤的诸多合作亮点。 ”

金砖国家在资源禀赋、产业结构等方面具有很强互补性,金砖五国的发展潜力巨大。目前,五国之间的经贸合作与交流势头大好,其中最主要的还是同中国的经贸合作。现需考虑如何把金砖五国的潜力、互补性发挥出来,使五国相互之间的经贸联系、利益捆绑更加密切,创造更多的金砖福利。

http://vod.xinhuanet.com/v/vod.html?vid=445180

“金砖+”这种新型合作框架,使金砖国家在不断巩固自身合作的基础上,拓展新的合作范围、合作区域和思路,使金砖为核心的朋友圈越做越大,并实现一种更紧密、稳固、可靠的新型合作关系,这也是中国推动全球治理,共同应对逆全球化的挑战,推动建立更加合理的世界政治经济秩序的一种尝试。

电商行业发展是世界趋势,各国都在采取各种措施,迎接这个时代的到来。俄罗斯毕竟拥有超过1.4亿人口的市场,中产阶级较多,富裕程度虽然赶不上西方发达国家,但与很多发展中国家相比,仍排在前面。俄罗斯人的消费能力、消费水平、消费品位都不低。从长远看,俄罗斯的电商市场潜力很大。

http://vod.xinhuanet.com/v/vod.html?vid=446106

视网消息:8月4日深夜至5日凌晨,受大地磁暴影响,新疆多地可见极光。在阿勒泰的哈巴河县,红色的极光如红丝绒般柔软细腻,一颗颗流星划过天际,如梦如幻。

今年5月,在一场超大地磁暴的影响下,阿勒泰曾连续两天出现绚丽极光。此次的极光与5月相比,规模相对较小。

河南原阳:数千只鹭鸟翱翔黄河湿地

这段时间,在河南新乡原阳县的黄河湿地,数千只国家二级保护动物白鹭、苍鹭在此停留。它们时而在空中盘旋飞舞,时而在水中觅食嬉戏,远看似繁星点缀在黄河上。

夕阳时分,鹭鸟成群,黄河生态之美尽收眼底。据了解,从6月下旬开始,一直到深秋时节,数千只苍鹭、白鹭都会在这里停留栖息。

河南洛阳:老君山现云海美景 波澜壮阔宛如仙境

日前,位于河南洛阳栾川县的老君山出现云海美景,峰峦之间,云海波澜壮阔。山顶的古建筑群在云海中若隐若现,仿佛空中楼阁,在阳光的照耀下,云海又变成了金色,如梦似幻。山川云海美景吸引了众多游客在山顶驻足欣赏。

来源: 央视网