八爪鱼提供JSON采集功能,通过打开JSON网址,配置流程,能够进行JSON采集。
一、JSON是什么
JSON是一种轻量的数据交换格式,由于一些优秀的特性比如比 XML 更小、更快,更易解析和阅读,并有效地提升网络传输效率,而得到广泛使用。
二、JSON采集的优点
1、无需加载图片视频等信息,采集速度更快
2、部分网站防采集限制减少,采集更加顺畅
三、JSON采集实例
示例网址:https://b2b.baidu.com/
需求:采集关键词为机械设备的信息地址,包括:公司名/链接/注册/产品/期限/注册资本
步骤操作:
步骤一、通过火狐浏览器获取JSON网址
JSON网址可以通过抓包工具来获取(如Fiddler),不会使用抓包工具的用户可以在火狐浏览器上安装firebug插件获取,或者在Chrome浏览器中,直接按F12把网页请求给调取出来。
第1步:
安装firebug插件后,在火狐打开,选择厂家,输入搜索后,按F12或下一个选择【使用查看元素】,在浏览器中浏览点击firebug调试器然后点击【网络】按钮,刷新下网页,让网页重新加载,此时可以看到这里有很多网址。JSON网址就在下面。
我们可以先点击【XHR】查看,JSON网址一般在XHR下面,如果在XHR中查找不到,则在【全部】中查找。
第2步:
点开每个url,查看是否有“JSON对象视图”,有的话则为JSON网址。
并不是每个JSON网址都是我们需要的, 因此还要再点击“JSON对象视图”,查看里面的参数,看是否有目标数据,有目标数据的JSON网址,才是我们要找的url。
如图,前面的JSON网址都不含有目标数据,后面JSON网址里才找到含有目标数据,它就是我们需要的JSON网址。成功找到url后,右键“复制地址”。
第3步:
上面获取到只是当前页的JSON,JSON网址的页面一般需要研究目标网站的翻页规律,才能进行url循环采集。
在这个网页调试器中,我们点击【清除】,先清空网址,然后点击网页上的翻页按钮,进行翻页。用前2步的方法获取到第二页的JSON,同理找第三页的JSON链接。然后见这三个JSON链接放在Excel表格,观察其链接参数和格式,就可以从中找出翻页规律了。
该网站的翻页规律为每一页的参数中“p=n”的增加,第一页为1,第二页为2,第3页为3…… 所以可根据此规律批量生成多个页面的JSON网址。
步骤二、在八爪鱼中配置流程
第1步:
使用八爪鱼采集的批量生成网址功能,生成多个JSON页面。
如下图新建自定义任务,选择【批量生成】,输入一条网址后,选择p=后面的数字3,添加参数。根据网页总页码数设置结束值(此处以10为例)。
打开网页后,在打开网页的高级设置中勾选「JSON」。
(JSON页面增加了请求参数项,可将JSON网站理解为api接口,要填写的参数也类似于接口中的参数。多数网站无需填写。)
当前浏览器页面展示出树状视图,即JSON数据。
第2步:
如下图所示,示例网站中的数据数据—entList标签里,entList [15]表示有15条数据。
点开列表项标签,再点开第1条数据,可以查看到里面的数据字段,我们需要从中选择需要的字段进行提取。
第3步:
做JSON数据循环时,只需在众多个数据项节点中,提取第1个节点里面的数据字段,就可以自动循环,提取全部节点里面的字段。
如图,在第1个节点内,分别点击需要采集的字段,点击完成后选择[采集数据],循环采集步骤就做好了。
规则配置完成,点击保存。
第4步:
点启动,开始本地采集,数据就以极快的速度采集下来了。
注意事项:
JSON利用JSON路径,详情可查看以下资料
Jsonpath介绍:https://www.cnblogs.com/aoyihuashao/p/8665873.html
Jsonpath在线测试网页:http://JSONpath.com/
文章评论