问题: 网址禁止访问 / 报错404、502了怎么办? 回答: 禁止访问 / 报错404、502一般都是对方网站针对你的访问进行的限制,建议是重启路由器或者换一个网络进行访问,比如说用手机热点进行连接,或者切换一个IP进行访问。
问题: 网址禁止访问 / 报错404、502了怎么办? 回答: 禁止访问 / 报错404、502一般都是对方网站针对你的访问进行的限制,建议是重启路由器或者换一个网络进行访问,比如说用手机热点进行连接,或者切换一个IP进行访问。
问题: 可以采集微信公众号 / 小程序 / 好友 / 朋友圈吗? 回答: 后羿采集器不支持任何形式的微信采集。只要是微信相关的数据都是不支持的。包括搜狗微信。
问题: 后羿采集器可以直接将采集到的数据发布到网站吗? 回答: 由于涉及到版权的问题,导出到网站有很大的法律风险。所以后羿采集器暂时不支持导出到网站的功能。您可以选择先将数据导出到MySql等数据库,再通过数据库发布到网站。
用户在创建任务的时候,首先要输入正确的网址,采集器上的输入框和一般的浏览器搜索框不同,需要输入网址而不能直接输入文字。 用户在输入网址的时候,不要直接输入首页的网址,要输入搜索结果页的网址。 例如: 如果用户要采集后羿采集器上文档教程的内容,如果直接输入后羿采集器首页的网址,那我们是采集不到文档教程的内容的。 我们需要复制的是展示了采集对象的页面的网址,才能采集到具体内容,如下图所示的网址。 【温馨提示】以上建议仅针对第一次使用的新手用户,并不代表后羿采集器的智能模式无法从首页开始采集,如果从首页开始…
一、文件下载功能简介 后羿采集器支持在采集的过程中下载文件,文件类型包括:图片、音频、视频、文档、其他文件,启用文件下载功能的位置如下图所示: 需要注意的是,此处的设置只是针对文件下载功能的开启,所有的文件下载都需要在采集字段中设置对应的下载链接或者下载按钮。 在下载文件时,软件支持对文件下载路径进行修改,你可以按照下图进行设置: 在下载文件时,软件支持按照一定的规则创建独立的文件夹用来存放文件,规则包括按照文件类型、采集日期、任务名称或者按照字段值给文件夹命名,如下图所示: 在下载文件时,软件支持按照一定的规则重…
在采集的过程中,我们可能会遇到异常停止的情况,如果我们希望再一次启动任务时从上一次停止的位置开始采集,我们需要使用断点续采的功能。 由于各种因素,自动断点续采这个功能现在暂时还无法实现,目前断点续采有两种方案: 1、通过去重功能来进行断点续采 直接在启动任务时进行数据去重设置,选择“当所有字段都重复时,跳过继续采集”。 该方案设置简单,但是效率较低,设置之后任务仍然会从第一页开始采集,然后逐个跳过所有已经采集到的数据。 2、通过修改采集范围、修改网址或添加预操作来进行断点续采 当任务停止时,软件的停止界面上会记录当…
如果需要设置采集范围,可以点击页面上的采集范围按钮直接设置采集范围。 1、设置起始页和结束页 起始页默认为当前页,结束页默认为最后一页。需要注意的是如果选择自定义设置,当前页为第一页。 2、设置跳过项 在采集中可以跳过每页前多少条或者后多少条。 3、设置停止采集 正常的采集任务会根据上述范围从开始页采集到结束页,此处的停止采集是在采集过程中满足设置条件时提前停止采集。停止采集条件设置和数据筛选条件的设置相同,请参考如何设置数据筛选。
在采集数据时如果遇到没采集到全部数据就停止采集的情况,可以点击“查看网页”按钮,确认一下采集过程中页面打开是否异常。本文主要讲解如何将采集时的当前页保存成文件。 步骤一:点击“查看网页”按钮 启动任务之后软件会自动打开“任务运行界面”,在这个界面上我们点击“查看网页”按钮即可看到当前正在采集的页面。 可以通过查看网页界面确认任务当前页的打开情况,包括设置的预执行操作是否有正常运行,是否有正常翻页,是否有广告弹窗,是否遇到验证码等。 步骤二:点击下载当前网页 在打开的当前页右上角,有一个“保存当前网页到文件系统”按钮…