后羿采集器,基于人工智能技术,无需编程,可视化操作,免费导出采集结果,只需输入网址就能自动识别采集内容的数据采集工具。 简介 网页抓取是指从互联网上获取信息或数据的过程,通常通过自动化的程序来执行。这些程序被称为网络爬虫或网络机器人,它们浏览网页、提取信息并将其存储或进一步处理。

2023年10月24日 0条评论 55点热度 0人点赞 365crawadmin 阅读全文

通过蜜蜂采集器手工录入网页数据并发布,解决对不同类型网站的少量数据摘录的需求。  

2023年9月16日 0条评论 64点热度 0人点赞 365crawadmin 阅读全文

采集场景      通过列表循环点击列表页进入下一级页面采集数据,进入下一级页面后,无法正常返回到列表页。从而导致只能采集一条数据就采集完成,无法采集全部的数据。本文讲解了此类场景下添加【返回上一级】功能步骤,解决此场景下的采集问题。示例网址http://scm.wxmetro.net:3000/Purchase/PurchaseNotice 此功能需要八爪鱼采集器8.5.4版本及以上版本才能支持。             二、返回上一级网页的使用场景   1、这里以一般的网站为例,建立循环点击列表进入详情。进入详…

2023年9月5日 0条评论 43点热度 0人点赞 365crawadmin 阅读全文

在数据采集的时候,经常会需要倒序采集(从最后一页开始往前采集数据)的情况。本文将简单说明如何使用后羿采集器的智能模式进行网页数据的倒序采集。 情况一:列表页翻页后,链接改变,存在最后一页链接 处理方式一:将列表页最后一页链接作为采集链接 当我们能够直接拿到网站列表页最后一页的链接时,可以通过直接复制链接的形式,用最后一页的链接来创建采集任务。 1. 在浏览器里点击到最后一页,复制最后一页的链接。

2023年9月5日 0条评论 67点热度 0人点赞 365crawadmin 阅读全文

很多网页使用了Ajax 技术,针对这种网页,我们需在八爪鱼中进行Ajax设置。   一、什么是Ajax?   Ajax (Asynchronous JavaScript and XML) :异步JavaScript 和XML。 Ajax是一种在无需重新加载整个网页的情况下,更新部分网页的技术。 通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。传统的网页(不使用 Ajax)如果需要更新内容,必须重新加载整个网页页面。   二、如何判断网页是否使用了Ajax技术?   Ajax网页有2个明显特征:…

2023年9月5日 0条评论 55点热度 0人点赞 365crawadmin 阅读全文

在数据采集的时候,经常会需要倒序采集(从最后一页开始往前采集数据)的情况。本文将简单说明如何使用后羿采集器的流程图模式进行网页数据的倒序采集。 情况一:列表页翻页后,链接改变,存在最后一页链接 处理方式一:将列表页最后一页链接作为采集链接 当我们能够直接拿到网站最后一页的链接时,可以通过直接复制链接的形式,用最后一页的链接来创建采集任务。 1. 在浏览器里点击到最后一页,复制最后一页的链接。 2. 创建一个流程图模式采集任务。 3. 流程图模式识别到列表后软件会提示是否需要识别下一页按钮,根据操作提示,手动点选识别…

2023年9月5日 0条评论 60点热度 0人点赞 365crawadmin 阅读全文

有时候,我们有大量同类网页,希望八爪鱼能自动采集每个网页中的数据。通过设置【URL循环】,可实现此需求。   什么是同类网页?结构相同、字段差不多的网页。例:   京东商品详情页: https://item.jd.com/1138288.html https://item.jd.com/27305099378.html https://item.jd.com/46339353993.html   豆瓣电影详情页: https://movie.douban.com/subject/26387939/ https://…

2023年9月5日 0条评论 50点热度 0人点赞 365crawadmin 阅读全文

问题: 采集的网页显示需要登录怎么办? 回答: 后羿采集器有预登录功能,在编辑界面的右上角能够看到。 详情请参考预登录的教程: 预登录和预执行操作

2023年9月5日 0条评论 59点热度 0人点赞 365crawadmin 阅读全文

问题: 需要翻页的网页如何采集? 回答: 后羿采集器会自动识别网页中的翻页按钮,如果自动识别有误差,可以设置手动点选。 具体操作请参考教程: 如何设置分页

2023年9月5日 0条评论 45点热度 0人点赞 365crawadmin 阅读全文

在后羿采集器的智能模式下,如果遇到需要登录才能查看内容的网页,我们可以按照如下图所示的步骤进行预登陆,然后顺利完成数据采集。 具体步骤如下: 第一步:创建智能模式任务(点此查看如何创建任务) 第二步:点击预登录按钮 第三步:输入账号和密码登录网站 第四步:点击“登录完成” 如下图所示:   温馨提示: 用户输入的所有信息均保存在本地,后羿采集器不会上传和存储用户在其他网站的任何个人信息。

2023年9月5日 0条评论 67点热度 0人点赞 365crawadmin 阅读全文