在数据采集的时候,经常会需要倒序采集(从最后一页开始往前采集数据)的情况。本文将简单说明如何使用后羿采集器的智能模式进行网页数据的倒序采集。 情况一:列表页翻页后,链接改变,存在最后一页链接 处理方式一:将列表页最后一页链接作为采集链接 当我们能够直接拿到网站列表页最后一页的链接时,可以通过直接复制链接的形式,用最后一页的链接来创建采集任务。 1. 在浏览器里点击到最后一页,复制最后一页的链接。
在数据采集的时候,经常会需要倒序采集(从最后一页开始往前采集数据)的情况。本文将简单说明如何使用后羿采集器的智能模式进行网页数据的倒序采集。 情况一:列表页翻页后,链接改变,存在最后一页链接 处理方式一:将列表页最后一页链接作为采集链接 当我们能够直接拿到网站列表页最后一页的链接时,可以通过直接复制链接的形式,用最后一页的链接来创建采集任务。 1. 在浏览器里点击到最后一页,复制最后一页的链接。
很多网页使用了Ajax 技术,针对这种网页,我们需在八爪鱼中进行Ajax设置。 一、什么是Ajax? Ajax (Asynchronous JavaScript and XML) :异步JavaScript 和XML。 Ajax是一种在无需重新加载整个网页的情况下,更新部分网页的技术。 通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。传统的网页(不使用 Ajax)如果需要更新内容,必须重新加载整个网页页面。 二、如何判断网页是否使用了Ajax技术? Ajax网页有2个明显特征:…
在数据采集的时候,经常会需要倒序采集(从最后一页开始往前采集数据)的情况。本文将简单说明如何使用后羿采集器的流程图模式进行网页数据的倒序采集。 情况一:列表页翻页后,链接改变,存在最后一页链接 处理方式一:将列表页最后一页链接作为采集链接 当我们能够直接拿到网站最后一页的链接时,可以通过直接复制链接的形式,用最后一页的链接来创建采集任务。 1. 在浏览器里点击到最后一页,复制最后一页的链接。 2. 创建一个流程图模式采集任务。 3. 流程图模式识别到列表后软件会提示是否需要识别下一页按钮,根据操作提示,手动点选识别…
有时候,我们有大量同类网页,希望八爪鱼能自动采集每个网页中的数据。通过设置【URL循环】,可实现此需求。 什么是同类网页?结构相同、字段差不多的网页。例: 京东商品详情页: https://item.jd.com/1138288.html https://item.jd.com/27305099378.html https://item.jd.com/46339353993.html 豆瓣电影详情页: https://movie.douban.com/subject/26387939/ https://…
在后羿采集器的智能模式下,如果遇到需要登录才能查看内容的网页,我们可以按照如下图所示的步骤进行预登陆,然后顺利完成数据采集。 具体步骤如下: 第一步:创建智能模式任务(点此查看如何创建任务) 第二步:点击预登录按钮 第三步:输入账号和密码登录网站 第四步:点击“登录完成” 如下图所示: 温馨提示: 用户输入的所有信息均保存在本地,后羿采集器不会上传和存储用户在其他网站的任何个人信息。
1、什么样的网页属于单页类型的网页 单页类型的网页通常是一个商品详情页或者一篇文章内容页,如下图所示: 2、如何采集单页类型的网页 具体步骤如下: 第一步:修改页面类型为“单页类型”(请参考此教程 →_→ 如何设置页面类型) 第二步:设置分页(请参考此教程 →_→如何设置分页) 第三步:添加字段 关于采集字段的更多设置请参考这篇教程:如何对采集字段进行配置
在后羿采集器的流程图模式下,如果遇到需要登录才能查看内容的网页,软件会提示我们登录,如果没有提示,我们可以按照如下图所示的步骤进行预登录。 具体包括: 第一步:创建流程图模式任务(点此查看如何创建任务) 第二步:点击预登录按钮 第三步:输入账号和密码登录网站 第四步:点击“登录完成” 温馨提示: 用户输入的所有信息均保存在本地,后羿采集器不会上传和存储用户在其他网站的任何个人信息。
1、什么样的网页是列表类型的网页 列表类型的网页是具有相同元素的内容页按照一定的线性顺序排列分布的网页,如下图所示: 2、如何采集列表类型的网页 在智能模式下,后羿采集器默认按照列表类型的网页进行智能识别,并完成页面列表元素内部所有字段的自动识别和采集。 如果后羿采集器自动识别的结果不符合您的需求,您可以手动点选列表。 (1)软件自动识别列表元素内部字段并进行采集 (2)手动点选列表 关于采集字段的设置可以看这里→_→ 如何对采集字段进行配置