在数据采集过程中,有时候我们会遇到采集到详情页时需要点击某一按钮之后才能获得数据的情况,本文将为大家介绍如何采集这一类的数据。 第一步:采集列表页数据 输入网址后,软件会自动识别列表上的数据,用户可以在这个基础上对字段进行设置。 点此了解更多如何采集列表页数据 第二步:使用深入采集进入详情页 采集完列表页上的数据后,我们需要采集详情页上的数据,可以选中链接使用深入采集,也可以点击链接直接进入详情页。 点此了解如何使用深入采集功能。 第三步:点击页面上按钮获得采集字段 当遇到详情页信息需要点击才会显示的情况,我们可以…

2023年9月5日 0条评论 61点热度 0人点赞 365crawadmin 阅读全文

1、什么样的网页是列表类型的网页 列表类型的网页是具有相同元素的内容页按照一定的线性顺序排列分布的网页,如下图所示: 2、如何采集列表类型的网页 1)软件可以准确识别列表的情况 点击列表中的任一行,软件会自动识别出列表并给出提示,选择“提取列表中的数据”。 软件会自动识别当前页面的分页按钮,我们可以根据提示设置自动翻页操作。 更多详情内容,请参考以下教程: 如何设置分页

2023年9月5日 0条评论 40点热度 0人点赞 365crawadmin 阅读全文

有的网页包含iframe框架,在八爪鱼中也需进行相应设置,本教程将详细讲解。   1、什么是iframe框架? 通俗来说,iframe框架就是在同一个页面中有多个网页,也就是网页中嵌套了其他的网页。 iframe框架可能有一层,也可能有多层。   如何判断网页有几层iframe框架? 借助火狐浏览器的irebug和firepath插件,我们可以很容易地判断出网页有几层iframe框架。 如果没有安装,请查看 火狐浏览器的irebug和firepath插件安装教程  。 安装好后,点击【Top Window】位置,会…

2023年9月5日 0条评论 43点热度 0人点赞 365crawadmin 阅读全文

1、什么样的网页属于单页类型的网页 单页类型的网页通常是一个商品详情页或者一篇文章内容页,如下图所示: 2、如何采集单页类型的网页 打开网页之后,选中页面上需要采集的字段,在操作提示框内选择“提取该元素中的数据”。 接着页面上会出现一个提取数据组件按钮,用户可以按照自己的需求继续添加所需要的字段。 更多详情内容,请参考以下教程: 如何对采集字段进行配置

2023年9月5日 0条评论 45点热度 0人点赞 365crawadmin 阅读全文

一、如何解决网页空白   在编辑采集流程步骤中,我们可能会遇到浏览器窗口的网页变成空白的页面。例如从列表页面点击进入详情页,在详情页提取数据时,浏览器中的网页就变成空白页 about:blank。     (浏览器窗口空白01)   这是因为【点击元素】(或【点击列表链接】)的【高级设置】中勾选了【在新标签中打开】,而导致的。   (浏览器窗口空白02)   有些网页的点击并不是开标签的,而ajax加载的(什么是ajax,请参考:Ajax网页设置方法)。   所以对这类网页空白的情况,我们可以通过不勾选【在新标签中…

2023年9月5日 0条评论 33点热度 0人点赞 365crawadmin 阅读全文

本教程主要给大家介绍如何使用后羿采集器的流程图模式采集列表页+详情页的数据。 第一步:采集列表页内容 更多详情内容,请参考以下教程: 如何采集列表类型的网页 第二步:深入采集 在第一步的基础上,如果我们需要采集详情页的数据,可以使用深入采集功能。 更多详情内容,请参考以下教程: 如何实现深入采集 第三步:设置详情页数据 详情页的采集和单页类型的采集方式是一样的。 更多详情内容,请参考以下教程: 如何采集单页类型的网页 第四步:启动采集任务 字段设置完毕后便可以开始进行采集任务的设置和启动。 更多详情内容,请参考以下…

2023年9月5日 0条评论 34点热度 0人点赞 365crawadmin 阅读全文

采集场景      通过列表循环点击列表页进入下一级页面采集数据,进入下一级页面后,无法正常返回到列表页。从而导致只能采集一条数据就采集完成,无法采集全部的数据。本文讲解了此类场景下添加【返回上一级】功能步骤,解决此场景下的采集问题。示例网址http://scm.wxmetro.net:3000/Purchase/PurchaseNotice 此功能需要八爪鱼采集器8.5.4版本及以上版本才能支持。             二、返回上一级网页的使用场景   1、这里以一般的网站为例,建立循环点击列表进入详情。进入详…

2023年9月5日 0条评论 21点热度 0人点赞 365crawadmin 阅读全文

在数据采集的时候,经常会需要倒序采集(从最后一页开始往前采集数据)的情况。本文将简单说明如何使用后羿采集器的智能模式进行网页数据的倒序采集。 情况一:列表页翻页后,链接改变,存在最后一页链接 处理方式一:将列表页最后一页链接作为采集链接 当我们能够直接拿到网站列表页最后一页的链接时,可以通过直接复制链接的形式,用最后一页的链接来创建采集任务。 1. 在浏览器里点击到最后一页,复制最后一页的链接。

2023年9月5日 0条评论 55点热度 0人点赞 365crawadmin 阅读全文

很多网页使用了Ajax 技术,针对这种网页,我们需在八爪鱼中进行Ajax设置。   一、什么是Ajax?   Ajax (Asynchronous JavaScript and XML) :异步JavaScript 和XML。 Ajax是一种在无需重新加载整个网页的情况下,更新部分网页的技术。 通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。传统的网页(不使用 Ajax)如果需要更新内容,必须重新加载整个网页页面。   二、如何判断网页是否使用了Ajax技术?   Ajax网页有2个明显特征:…

2023年9月5日 0条评论 37点热度 0人点赞 365crawadmin 阅读全文

在数据采集的时候,经常会需要倒序采集(从最后一页开始往前采集数据)的情况。本文将简单说明如何使用后羿采集器的流程图模式进行网页数据的倒序采集。 情况一:列表页翻页后,链接改变,存在最后一页链接 处理方式一:将列表页最后一页链接作为采集链接 当我们能够直接拿到网站最后一页的链接时,可以通过直接复制链接的形式,用最后一页的链接来创建采集任务。 1. 在浏览器里点击到最后一页,复制最后一页的链接。 2. 创建一个流程图模式采集任务。 3. 流程图模式识别到列表后软件会提示是否需要识别下一页按钮,根据操作提示,手动点选识别…

2023年9月5日 0条评论 37点热度 0人点赞 365crawadmin 阅读全文