八爪鱼是基于网址进行数据采集的。支持从本地文件导入网址、根据规律批量生成网址、从已有任务导入网址
一、从本地文件导入网址
新建【自定义任务】,选择从【文件导入】,再选择已有的网址文件,就可以大批量导入。导入之后,可以预览前100条网址。
再点击【保存设置】,即可开始任务配置。
注意:
① 支持csv、xls、xlsx、txt文件格式批量导入网址
② 支持100w以内网址 ,超过的自动删除
二、批量生成网址
网址中一般有很多参数,根据网址参数的变化规律,可批量生成网址。
1、网址参数中出现数字变化,常见于翻页
示例网址:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=0&type=T
第1页:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=0&type=T
第2页:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=20&type=T
第3页:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=40&type=T
我们发现,第1页【start=】后面的值为0, 每递增一页,【start=】后面的值递增20,根据这个规律,可批量生成网址。
如下图所示:选中【start=】后面的值,点击【添加参数】,选择参数类型为【数字变更】,【开始值】为0,【每次动作递增】20,共10项,共批量生成10条网址。
第1页:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=0&type=T
第2页:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=20&type=T
第3页:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=40&type=T
......
第9页:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=160&type=T
第10页:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=180&type=T
再点击【保存设置】,即可开始任务配置。
2、网址参数中出现字母变化,这个比较少见
3、网址参数中出现时间变化,这个也比较少见
4、网址参数中出现关键词变化,常见于需要输入关键词搜索的网站
示例网址:https://www.jd.com/
在首页输入关键词【手机】:https://search.jd.com/Search?keyword=手机&enc=utf-8&wq=%E6%89%8B%E6%9C%BA&pvid=070d13546be04c9cb9d78ba6d3c67438
在首页输入关键词【电脑】:https://search.jd.com/Search?keyword=电脑&enc=utf-8&wq=%E6%89%8B%E6%9C%BA&pvid=070d13546be04c9cb9d78ba6d3c67438
我们发现,【keyword=】后面的值决定了搜索的是什么关键词,根据这个规律,可批量生成网址。
如下图所示:选中【keyword=】后面的值,点击【添加参数】,选择参数类型为【自定义列表】,输入我们准备好的关键词。
批量生成了含有所有关键词的网址,再点击【保存设置】,即可开始任务配置:
注意:
① 支持100W以内网址批量生成,超过100W部分自动去掉。
② 批量生成的网址,前100条存储在本地,显示在界面上;>100条的网址存储在云端,不显示在界面上,本地采集或云采集的时候,直接调用存储在云端的网址采集数据。
③ 如果复制此规则,复制后得到的规则仅包含前100条网址,仅采集前100条网址的数据。
三、从已有任务导入网址(适用于云采集)
云采集为团队版以上才有的功能。去升团队版
常用场景:
A任务和B任务都在云上进行采集,A任务采集列表数据(含链接,可点击进入详情页),B任务调用A任务已采集到的链接,采集详情页数据。
B任务跟随A任务启动,A任务不断采集到新链接,B任务不断调用A任务中的链接,采集详情页数据。配合云采集拆分,多节点同时采集,极大提高采集效率。
A任务采集到网址:
B任务直接调用A任务中采集到的网址:
此时,我们称A任务为【源任务】,B任务为【跟随任务】。
调用完成后,点击【保存设置】,即可开始任务配置。本示例提取一下结果详情页的项目名称、电子监管号、面积。
配置完成后启动【采集】,选择【跟随启动设置】。
跟随任务无法单独启动【本地采集】或【云采集】,它只能通过源任务触发启动。触发条件有以下4个。
当源任务启动云采集后,跟随启动
当源任务云采集完成后,跟随启动
当源任务完成或者停止云采集后,跟随启动
手动启动(保证源任务云采集已有数据)
请注意:跟随任务是调用源任务的云采集采集到的网址进行采集的。只有源任务的云采集有一定数据后,跟随任务才能启动并采集到数据。
也可以在【我的任务】列表里,设置跟随启动。
文章评论