有的网页无下一页按钮,通过点击数字进行翻页,示例网址如:http://stock.cngold.org/news/ 使用智能识别和自行配置的采集规则,都能实现点击数字进行翻页,具体设置方法如下:     1、使用智能识别实现【数字翻页】 八爪鱼的智能识别,支持【数字翻页】的智能识别,如下图所示:     2、自己配置采集流程实现【数字翻页】 如果想了解背后的原理,我们可以来尝试自己配置这类网页的采集流程。   让八爪鱼不断点击数字进行翻页:当前页是第1页,点第2页;当前页是第2页,点第3页.......当前页是最后…

2023年9月5日 0条评论 38点热度 0人点赞 365crawadmin 阅读全文

采集场景 在AliExpress(速卖通) 网站上进入商品详情页,采集商品的评论信息。 示例网址: http://www.aliexpress.com/item/4000093476853.html https://es.aliexpress.com/item/1005003334666560.html 采集字段 商品id、标题、价格、评论数、评分、五星率、四星率、三星率、两星率、一星率、评论者、国籍、商品属性、评论内容、评论时间   点击查看高清大图,下文其他图片同理     采集结果 采集结果可导出为Excel…

2023年9月5日 0条评论 57点热度 0人点赞 365crawadmin 阅读全文

有的网页内存在一个或多个下拉框,需要先点击下拉框中的选项,然后再采集数据。     针对这种网页,在八爪鱼中如何处理呢?我们来看一下。   一、在一个下拉框中点击选项 示例网址:http://deal.ggzy.gov.cn/ds/deal/dealList.jsp   步骤一:输入网址 在八爪鱼首页中输入网址,自动打开网页     步骤二:建立【循环-切换下拉选项】 在这里,我们想点击【省份】下拉框中的选项进行筛选。 选中【省份】下拉框,在弹出的操作提示框中,选择【循环切换下拉列表选项】。 进入【循环列表】的设置…

2023年9月5日 0条评论 47点热度 0人点赞 365crawadmin 阅读全文

采集场景 在豆瓣读书短评页面 https://book.douban.com/subject/4011670/comments/ , 采集图书评论信息。   采集字段 作品名、有用数、评论时间、评论内容、星级、当前时间、页面网址     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理     采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:      教程说明 本篇制作时间:2022/5/27    八爪鱼版本:V8.5.4 如果因…

2023年9月5日 0条评论 51点热度 0人点赞 365crawadmin 阅读全文

采集场景 在微博主页(https://weibo.com/)登录后,循环打开微博博文链接,采集博文链接的一级评论数据。实例地址:https://weibo.com/1977661791/I7PgktlCh 。     采集字段 博主用户名、发布时间、博文内容、转发数、评论数、点赞数、评论人、评论内容、评论时间。   采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。       教程说明 本篇更新时间:2023/04/20 八爪鱼版本:V8.6.0 如因网页改版导致网址或步骤无效,无法收集到…

2023年9月5日 0条评论 127点热度 0人点赞 365crawadmin 阅读全文

采集场景 在京东搜索页 https://search.jd.com/Search 输入搜索,搜出后得到的多个商品列表数据。     点击图片上,选择【在新标签页中打开图片】即可查看大图 其他图片同理   征地 商品名称、价格、评论数、店铺名称、店铺链接等字段。   采集结果 采集结果可导出为Excel,CSV,HTML,数据库等格式。导出为Excel示例:     教程说明 本篇更新时间:2022/5/10 八爪鱼版本:V8.5.2 如果因网页改版导致网址或步骤无效,无法获取到目标数据,请联系官方客服,我们将及时修…

2023年9月5日 0条评论 47点热度 0人点赞 365crawadmin 阅读全文

有一些网页,我们需对其采集流程中的某些步骤,设置【执行前等待】,才能正常采集到数据。 如何判断要不要设置【执行前等待】,怎么设置?   一、【执行前等待】是什么意思   【执行前等待】的意思是,在执行此步骤前,先等待一段时间(等待的时长由自己根据需求设置)作用是等网页上要采集的数据完全加载出来以后,再执行此步骤。     二、【执行前等待】的应用场景   1、手动执行规则有数据,启动本地采集后,很快提示:【采集已停止】   例:微博数据提取,手动执行规则是有数据的,但是启动本地采集后,很快提示【采集已停止】。   …

2023年9月5日 0条评论 40点热度 0人点赞 365crawadmin 阅读全文

一、连接数据库问题   1、在连接数据库时提示:无法连接到指定的数据库,详细信息:Keyword not supported.参数名:!!!Charset。   问题原因:请检查数据库密码是否包含了特殊符号 解决方法:建议密码修改为:字母和数字组合。       二、导入数据库问题   1、提示:Invalid column type from bcp client for colid x.(从 bcp 客户端收到一个对 colid x 无效的列长度)   问题原因:datatable(数据表中)中的colid列x…

2023年9月5日 0条评论 53点热度 0人点赞 365crawadmin 阅读全文

有的网页没有下一页按钮,但是有【加载更多】或【再显示20条】等按钮,通过不断点击这些按钮,可以实现翻页,加载出新数据。 像 搜狗微信首页 、微博评论 等页面都是这种情况。   针对这类网页,使用智能识别和自行配置的采集规则,都能实现翻页,具体设置方法如下:     1、智能识别实现【点击加载更多翻页】 示例网址如:https://weixin.sogou.com/     八爪鱼的智能识别,支持【加载更多内容】这种翻页的智能识别,如下图所示:   在 新手入门第8课:采集原理与流程执行逻辑 中,我们讲过,流程的执行…

2023年9月5日 0条评论 38点热度 0人点赞 365crawadmin 阅读全文

采集场景 进入同花顺基金净值查询页面:http://fund.10jqka.com.cn/datacenter/jz/ ,输入查询时间后搜索,采集搜索后得到的多个基金净值数据。   采集字段 序号、基金代码、基金代码链接、基金名称、基金链接、相关内容、相关内容链接、单位净值、累计净值、增长值、增长率、申购状态、赎回状态、当前采集时间等字段。     点击查看高清大图,下文其他图片同理   采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:       采集步骤 步骤一、…

2023年9月5日 0条评论 51点热度 0人点赞 365crawadmin 阅读全文
14567813