流程图任务是由各种组件构成的,每种组件对应不同的操作,下面我们针对每个组件及其对应的设置参数进行详细的介绍。 1、打开网页 打开网页组件的作用是打开网页,流程图任务创建时会自动生成一个打开网页组件,该组件作为任务的第一个组件,不能被拖动或者删除。 在右侧的组件设置窗口中,点击右侧任务网址可以进行编辑,此处的编辑和编辑流程图任务网址是相同的操作。 当打开网页组件不处于任务起始位置时,设置如下图所示,选择自定义选项可以输入自定义的网址。 2、点击 点击组件的作用是点击页面中的元素,它的设置如下图所示: 通常该组件会在点…

2023年9月5日 0条评论 55点热度 0人点赞 365crawadmin 阅读全文

如果大家在发布到数据库时遇到一些问题,请参考这个教程进行问题排查:发布到数据库常见问题 作为一款真免费的数据采集软件,我们免费提供多种导出方式,如果小伙伴们需要将采集到的数据发布到数据库MySQL,可以按照以下操作导出。 步骤一: 数据提取完毕后在导出数据界面选择导出到MySQL数据库选项。 步骤二: 选择本地数据库,可以创建新配置,也可以使用之前配置好的本地数据库。 创建新配置时,我们需要输入本地数据库地址、端口、用户名、密码。 如果地址或者密码什么的输入的不对,会出现Error的提示,此时需要检查是否正确输入地…

2023年9月5日 0条评论 52点热度 0人点赞 365crawadmin 阅读全文

数据去重功能是指在任务采集过程中,将当前采集到的数据和该任务中已保存的所有数据进行对比,如果数据重复,则按照设置条件进行处理。 在编辑任务界面,点击右下角“开始采集”按钮,在弹出的设置框中,点击“数据去重”选项可以切换到数据去重设置界面。 1、去重条件 1)所有字段都重复 勾选“所有字段都重复”这个去重条件,意味着两行数据必须完全相同,软件才会执行去重。只要两行数据中有任意一个字段不相同,该数据都不会被判定为重复数据。 需要注意的是,很多网页内容中存在时间或阅读数这一类会变化的内容,包含此类内容时,数据往往看上去大…

2023年9月5日 0条评论 46点热度 0人点赞 365crawadmin 阅读全文

在数据采集的时候,经常会需要倒序采集(从最后一页开始往前采集数据)的情况。本文将简单说明如何使用后羿采集器的智能模式进行网页数据的倒序采集。 情况一:列表页翻页后,链接改变,存在最后一页链接 处理方式一:将列表页最后一页链接作为采集链接 当我们能够直接拿到网站列表页最后一页的链接时,可以通过直接复制链接的形式,用最后一页的链接来创建采集任务。 1. 在浏览器里点击到最后一页,复制最后一页的链接。

2023年9月5日 0条评论 72点热度 0人点赞 365crawadmin 阅读全文

有一些网页,我们需对其采集流程中的某些步骤,设置【执行前等待】,才能正常采集到数据。 如何判断要不要设置【执行前等待】,怎么设置?   一、【执行前等待】是什么意思   【执行前等待】的意思是,在执行此步骤前,先等待一段时间(等待的时长由自己根据需求设置)作用是等网页上要采集的数据完全加载出来以后,再执行此步骤。     二、【执行前等待】的应用场景   1、手动执行规则有数据,启动本地采集后,很快提示:【采集已停止】   例:微博数据提取,手动执行规则是有数据的,但是启动本地采集后,很快提示【采集已停止】。   …

2023年9月5日 0条评论 45点热度 0人点赞 365crawadmin 阅读全文

一、连接数据库问题   1、在连接数据库时提示:无法连接到指定的数据库,详细信息:Keyword not supported.参数名:!!!Charset。   问题原因:请检查数据库密码是否包含了特殊符号 解决方法:建议密码修改为:字母和数字组合。       二、导入数据库问题   1、提示:Invalid column type from bcp client for colid x.(从 bcp 客户端收到一个对 colid x 无效的列长度)   问题原因:datatable(数据表中)中的colid列x…

2023年9月5日 0条评论 61点热度 0人点赞 365crawadmin 阅读全文

有的网页没有下一页按钮,但是有【加载更多】或【再显示20条】等按钮,通过不断点击这些按钮,可以实现翻页,加载出新数据。 像 搜狗微信首页 、微博评论 等页面都是这种情况。   针对这类网页,使用智能识别和自行配置的采集规则,都能实现翻页,具体设置方法如下:     1、智能识别实现【点击加载更多翻页】 示例网址如:https://weixin.sogou.com/     八爪鱼的智能识别,支持【加载更多内容】这种翻页的智能识别,如下图所示:   在 新手入门第8课:采集原理与流程执行逻辑 中,我们讲过,流程的执行…

2023年9月5日 0条评论 43点热度 0人点赞 365crawadmin 阅读全文

采集场景 进入同花顺基金净值查询页面:http://fund.10jqka.com.cn/datacenter/jz/ ,输入查询时间后搜索,采集搜索后得到的多个基金净值数据。   采集字段 序号、基金代码、基金代码链接、基金名称、基金链接、相关内容、相关内容链接、单位净值、累计净值、增长值、增长率、申购状态、赎回状态、当前采集时间等字段。     点击查看高清大图,下文其他图片同理   采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:       采集步骤 步骤一、…

2023年9月5日 0条评论 57点热度 0人点赞 365crawadmin 阅读全文

采集场景 在百度图片首页(http://image.baidu.com/)输入关键词搜索,采集得到的图片地址。示例是搜索关键词【三清山】得到的图片。   采集字段 搜索关键词、图片地址、图片保存文件路径。   鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理   采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:     教程说明 本篇制作时间:2022/6/30    八爪鱼版本:V8.5.4 如果因网页改版造成网址或步骤无效,无法采…

2023年9月5日 0条评论 76点热度 0人点赞 365crawadmin 阅读全文

采集场景 在豆瓣电影首页(https://movie.douban.com/)输入关键词搜索,得到相关电影列表页。实例网址:https://search.douban.com/movie/subject_search?search_text=%E6%88%98%E7%8B%BC ,是输入关键词【战狼】后得到的电影列表页。然后点击电影链接,进入电影详情页,采集详情页数据。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理    采集字段 电影、导演、编剧、主演、制片国家/地区…

2023年9月5日 0条评论 100点热度 0人点赞 365crawadmin 阅读全文
1303132333454