本教程为大家讲解【判断条件】的使用场景与设置方法。   一、【判断条件】常见使用场景    1、判断某一条件(如关键词)是否存在,存在就采集,不存在则不采。 例:采集京东商品信息,只想采集自营商品。可以通过【判断条件】判断是否为自营商品,是则采集,不是则不采。 2、要采集的数据有多种情况,网页源码存在多种样式,需分开收集。 例:网页正文有的是图片有的文字,两者的数据提取方法不同。可以通过【判断条件】判断是图片还是文字,是图片走图片采集分支,是文字则走文字采集分支。   3、判断页面是否出现验证码,出现则自动识别,未…

2023年9月5日 0条评论 51点热度 0人点赞 365crawadmin 阅读全文

一、云采集是什么?   云采集是指,使用由八爪鱼提供的云服务进行数据采集。八爪拥有5000+云服务器,7*24小时运行云采集服务。 我们在本地电脑上将任务配置完成,测试没有问题以后,就可以选择启动八爪鱼的云采集。 注意,团队版以上用户自带云采集功能。什么是团队版?点击查看 版本套餐 。   二、云采集优势   与【本地采集】对比,【云采集】具有以下优势: 1、采集速度更快。 2、实现无人值守。可关闭电脑、软件进行数据采集,真正实现无人值守。 3、定时采集。云服务器是7*24小时,可设置任务的定时启动工作。 4、数据…

2023年9月5日 0条评论 66点热度 0人点赞 365crawadmin 阅读全文

有的网页无下一页按钮,通过点击数字进行翻页,示例网址如:http://stock.cngold.org/news/ 使用智能识别和自行配置的采集规则,都能实现点击数字进行翻页,具体设置方法如下:     1、使用智能识别实现【数字翻页】 八爪鱼的智能识别,支持【数字翻页】的智能识别,如下图所示:     2、自己配置采集流程实现【数字翻页】 如果想了解背后的原理,我们可以来尝试自己配置这类网页的采集流程。   让八爪鱼不断点击数字进行翻页:当前页是第1页,点第2页;当前页是第2页,点第3页.......当前页是最后…

2023年9月5日 0条评论 39点热度 0人点赞 365crawadmin 阅读全文

采集场景 在AliExpress(速卖通) 网站上进入商品详情页,采集商品的评论信息。 示例网址: http://www.aliexpress.com/item/4000093476853.html https://es.aliexpress.com/item/1005003334666560.html 采集字段 商品id、标题、价格、评论数、评分、五星率、四星率、三星率、两星率、一星率、评论者、国籍、商品属性、评论内容、评论时间   点击查看高清大图,下文其他图片同理     采集结果 采集结果可导出为Excel…

2023年9月5日 0条评论 59点热度 0人点赞 365crawadmin 阅读全文

有的网页内存在一个或多个下拉框,需要先点击下拉框中的选项,然后再采集数据。     针对这种网页,在八爪鱼中如何处理呢?我们来看一下。   一、在一个下拉框中点击选项 示例网址:http://deal.ggzy.gov.cn/ds/deal/dealList.jsp   步骤一:输入网址 在八爪鱼首页中输入网址,自动打开网页     步骤二:建立【循环-切换下拉选项】 在这里,我们想点击【省份】下拉框中的选项进行筛选。 选中【省份】下拉框,在弹出的操作提示框中,选择【循环切换下拉列表选项】。 进入【循环列表】的设置…

2023年9月5日 0条评论 47点热度 0人点赞 365crawadmin 阅读全文

采集场景 在豆瓣读书短评页面 https://book.douban.com/subject/4011670/comments/ , 采集图书评论信息。   采集字段 作品名、有用数、评论时间、评论内容、星级、当前时间、页面网址     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理     采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:      教程说明 本篇制作时间:2022/5/27    八爪鱼版本:V8.5.4 如果因…

2023年9月5日 0条评论 55点热度 0人点赞 365crawadmin 阅读全文

采集场景 在微博主页(https://weibo.com/)登录后,循环打开微博博文链接,采集博文链接的一级评论数据。实例地址:https://weibo.com/1977661791/I7PgktlCh 。     采集字段 博主用户名、发布时间、博文内容、转发数、评论数、点赞数、评论人、评论内容、评论时间。   采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。       教程说明 本篇更新时间:2023/04/20 八爪鱼版本:V8.6.0 如因网页改版导致网址或步骤无效,无法收集到…

2023年9月5日 0条评论 152点热度 0人点赞 365crawadmin 阅读全文

采集场景 在京东搜索页 https://search.jd.com/Search 输入搜索,搜出后得到的多个商品列表数据。     点击图片上,选择【在新标签页中打开图片】即可查看大图 其他图片同理   征地 商品名称、价格、评论数、店铺名称、店铺链接等字段。   采集结果 采集结果可导出为Excel,CSV,HTML,数据库等格式。导出为Excel示例:     教程说明 本篇更新时间:2022/5/10 八爪鱼版本:V8.5.2 如果因网页改版导致网址或步骤无效,无法获取到目标数据,请联系官方客服,我们将及时修…

2023年9月5日 0条评论 49点热度 0人点赞 365crawadmin 阅读全文

有一些网页,我们需对其采集流程中的某些步骤,设置【执行前等待】,才能正常采集到数据。 如何判断要不要设置【执行前等待】,怎么设置?   一、【执行前等待】是什么意思   【执行前等待】的意思是,在执行此步骤前,先等待一段时间(等待的时长由自己根据需求设置)作用是等网页上要采集的数据完全加载出来以后,再执行此步骤。     二、【执行前等待】的应用场景   1、手动执行规则有数据,启动本地采集后,很快提示:【采集已停止】   例:微博数据提取,手动执行规则是有数据的,但是启动本地采集后,很快提示【采集已停止】。   …

2023年9月5日 0条评论 43点热度 0人点赞 365crawadmin 阅读全文

一、连接数据库问题   1、在连接数据库时提示:无法连接到指定的数据库,详细信息:Keyword not supported.参数名:!!!Charset。   问题原因:请检查数据库密码是否包含了特殊符号 解决方法:建议密码修改为:字母和数字组合。       二、导入数据库问题   1、提示:Invalid column type from bcp client for colid x.(从 bcp 客户端收到一个对 colid x 无效的列长度)   问题原因:datatable(数据表中)中的colid列x…

2023年9月5日 0条评论 59点热度 0人点赞 365crawadmin 阅读全文
1234513