有一些网页,我们需对其采集流程中的某些步骤,设置【执行前等待】,才能正常采集到数据。 如何判断要不要设置【执行前等待】,怎么设置? 一、【执行前等待】是什么意思 【执行前等待】的意思是,在执行此步骤前,先等待一段时间(等待的时长由自己根据需求设置)作用是等网页上要采集的数据完全加载出来以后,再执行此步骤。 二、【执行前等待】的应用场景 1、手动执行规则有数据,启动本地采集后,很快提示:【采集已停止】 例:微博数据提取,手动执行规则是有数据的,但是启动本地采集后,很快提示【采集已停止】。 …
一、连接数据库问题 1、在连接数据库时提示:无法连接到指定的数据库,详细信息:Keyword not supported.参数名:!!!Charset。 问题原因:请检查数据库密码是否包含了特殊符号 解决方法:建议密码修改为:字母和数字组合。 二、导入数据库问题 1、提示:Invalid column type from bcp client for colid x.(从 bcp 客户端收到一个对 colid x 无效的列长度) 问题原因:datatable(数据表中)中的colid列x…
有的网页没有下一页按钮,但是有【加载更多】或【再显示20条】等按钮,通过不断点击这些按钮,可以实现翻页,加载出新数据。 像 搜狗微信首页 、微博评论 等页面都是这种情况。 针对这类网页,使用智能识别和自行配置的采集规则,都能实现翻页,具体设置方法如下: 1、智能识别实现【点击加载更多翻页】 示例网址如:https://weixin.sogou.com/ 八爪鱼的智能识别,支持【加载更多内容】这种翻页的智能识别,如下图所示: 在 新手入门第8课:采集原理与流程执行逻辑 中,我们讲过,流程的执行…
采集场景 进入同花顺基金净值查询页面:http://fund.10jqka.com.cn/datacenter/jz/ ,输入查询时间后搜索,采集搜索后得到的多个基金净值数据。 采集字段 序号、基金代码、基金代码链接、基金名称、基金链接、相关内容、相关内容链接、单位净值、累计净值、增长值、增长率、申购状态、赎回状态、当前采集时间等字段。 点击查看高清大图,下文其他图片同理 采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例: 采集步骤 步骤一、…
采集场景 在百度图片首页(http://image.baidu.com/)输入关键词搜索,采集得到的图片地址。示例是搜索关键词【三清山】得到的图片。 采集字段 搜索关键词、图片地址、图片保存文件路径。 鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理 采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例: 教程说明 本篇制作时间:2022/6/30 八爪鱼版本:V8.5.4 如果因网页改版造成网址或步骤无效,无法采…
采集场景 在豆瓣电影首页(https://movie.douban.com/)输入关键词搜索,得到相关电影列表页。实例网址:https://search.douban.com/movie/subject_search?search_text=%E6%88%98%E7%8B%BC ,是输入关键词【战狼】后得到的电影列表页。然后点击电影链接,进入电影详情页,采集详情页数据。 鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理 采集字段 电影、导演、编剧、主演、制片国家/地区…
在正式开始数据采集之前,请根据自身系统,下载安装合适的八爪鱼客户端。 本文讲解Windows客户端安装方法与常见问题汇总。 一、下载安装八爪鱼Windows客户端(8版本) 1、系统要求 Win7/Win8/Win8.1/Win10(x64位) XP系统和32位系统,请下载安装7版本 特别说明: a. 如何查看自己电脑是什么系统?找到【此电脑】,右键,选择【属性】即可查看。