一、如何解决网页空白 在编辑采集流程步骤中,我们可能会遇到浏览器窗口的网页变成空白的页面。例如从列表页面点击进入详情页,在详情页提取数据时,浏览器中的网页就变成空白页 about:blank。 (浏览器窗口空白01) 这是因为【点击元素】(或【点击列表链接】)的【高级设置】中勾选了【在新标签中打开】,而导致的。 (浏览器窗口空白02) 有些网页的点击并不是开标签的,而ajax加载的(什么是ajax,请参考:Ajax网页设置方法)。 所以对这类网页空白的情况,我们可以通过不勾选【在新标签中…
本教程主要给大家介绍如何使用后羿采集器的流程图模式采集列表页+详情页的数据。 第一步:采集列表页内容 更多详情内容,请参考以下教程: 如何采集列表类型的网页 第二步:深入采集 在第一步的基础上,如果我们需要采集详情页的数据,可以使用深入采集功能。 更多详情内容,请参考以下教程: 如何实现深入采集 第三步:设置详情页数据 详情页的采集和单页类型的采集方式是一样的。 更多详情内容,请参考以下教程: 如何采集单页类型的网页 第四步:启动采集任务 字段设置完毕后便可以开始进行采集任务的设置和启动。 更多详情内容,请参考以下…
在数据采集的时候,经常会需要倒序采集(从最后一页开始往前采集数据)的情况。本文将简单说明如何使用后羿采集器的智能模式进行网页数据的倒序采集。 情况一:列表页翻页后,链接改变,存在最后一页链接 处理方式一:将列表页最后一页链接作为采集链接 当我们能够直接拿到网站列表页最后一页的链接时,可以通过直接复制链接的形式,用最后一页的链接来创建采集任务。 1. 在浏览器里点击到最后一页,复制最后一页的链接。
很多网页使用了Ajax 技术,针对这种网页,我们需在八爪鱼中进行Ajax设置。 一、什么是Ajax? Ajax (Asynchronous JavaScript and XML) :异步JavaScript 和XML。 Ajax是一种在无需重新加载整个网页的情况下,更新部分网页的技术。 通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。传统的网页(不使用 Ajax)如果需要更新内容,必须重新加载整个网页页面。 二、如何判断网页是否使用了Ajax技术? Ajax网页有2个明显特征:…
在数据采集的时候,经常会需要倒序采集(从最后一页开始往前采集数据)的情况。本文将简单说明如何使用后羿采集器的流程图模式进行网页数据的倒序采集。 情况一:列表页翻页后,链接改变,存在最后一页链接 处理方式一:将列表页最后一页链接作为采集链接 当我们能够直接拿到网站最后一页的链接时,可以通过直接复制链接的形式,用最后一页的链接来创建采集任务。 1. 在浏览器里点击到最后一页,复制最后一页的链接。 2. 创建一个流程图模式采集任务。 3. 流程图模式识别到列表后软件会提示是否需要识别下一页按钮,根据操作提示,手动点选识别…
有时候,我们有大量同类网页,希望八爪鱼能自动采集每个网页中的数据。通过设置【URL循环】,可实现此需求。 什么是同类网页?结构相同、字段差不多的网页。例: 京东商品详情页: https://item.jd.com/1138288.html https://item.jd.com/27305099378.html https://item.jd.com/46339353993.html 豆瓣电影详情页: https://movie.douban.com/subject/26387939/ https://…
在后羿采集器的智能模式下,如果遇到需要登录才能查看内容的网页,我们可以按照如下图所示的步骤进行预登陆,然后顺利完成数据采集。 具体步骤如下: 第一步:创建智能模式任务(点此查看如何创建任务) 第二步:点击预登录按钮 第三步:输入账号和密码登录网站 第四步:点击“登录完成” 如下图所示: 温馨提示: 用户输入的所有信息均保存在本地,后羿采集器不会上传和存储用户在其他网站的任何个人信息。