网页上的数据类型十分丰富:文本、图片、链接、源码等。在数据采集过程中,不同类型的数据类型,对应的抓取方式是不同的。本文将讲解常见的数据类型与其抓取方式。 示例网址:https://movie.douban.com/explore#!type=movie&tag=%E7%BB%8F%E5%85%B8&sort=recommend&page_limit=20&page_start=0   1、抓取文本:抓取显示在页面中的文本   操作:鼠标选中页面中的文本,在弹出的操作提示框中选择【采集…

2023年9月5日 0条评论 66点热度 0人点赞 365crawadmin 阅读全文

火狐浏览器firebug和firepath插件安装方法(最新)。以下为具体步骤。   第1步:下载火狐55以内版本安装包,安装时迅速设置禁止自动更新版本,取消勾选自动更新(目的是防止火狐浏览器自动升级)   54版本火狐浏览器的下载地址:64位火狐54:http://ftp.mozilla.org/pub/firefox/releases/54.0.1/win64/zh-CN/ 32位火狐54:http://ftp.mozilla.org/pub/firefox/releases/54.0.1/win32/zh-C…

2023年9月5日 0条评论 52点热度 0人点赞 365crawadmin 阅读全文

采集场景      通过列表循环点击列表页进入下一级页面采集数据,进入下一级页面后,无法正常返回到列表页。从而导致只能采集一条数据就采集完成,无法采集全部的数据。本文讲解了此类场景下添加【返回上一级】功能步骤,解决此场景下的采集问题。示例网址http://scm.wxmetro.net:3000/Purchase/PurchaseNotice 此功能需要八爪鱼采集器8.5.4版本及以上版本才能支持。             二、返回上一级网页的使用场景   1、这里以一般的网站为例,建立循环点击列表进入详情。进入详…

2023年9月5日 0条评论 43点热度 0人点赞 365crawadmin 阅读全文

在第 2 课:采集数据中,学习了如何从网页抓取我们的文本、图片、超链接,对八爪鱼【自定义配置】任务采集数据的过程进行了展示。本课将继续深入学习采集有一些列表中的数据。   列表是最常见的网页样式。示例:京东商品列表,58个同城房书源列表,豆瓣列表。通过简单配置,八爪鱼可以自动采集全部列表中的数据。   现在有一个豆瓣图书列表的网页:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4。网页上有很多结构相同的图书列表,每个图书列表列表的领域:图书标题、出版信息、评分、评价人数、…

2023年9月5日 0条评论 50点热度 0人点赞 365crawadmin 阅读全文

采集场景 在知乎首页 https://www.zhihu.com/, 输入关键词搜索,得到相关问题列表。然后,点击问题链接进入详情页,采集该问题下的多个回答数据。   采集字段 问题名称、问题描述、评论数、问题网址、回答ID、回答ID描述、回答ID头像、回答正文等字段。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理     采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:     教程说明 本篇制作时间:2022/5/20…

2023年9月5日 0条评论 42点热度 0人点赞 365crawadmin 阅读全文

采集场景 京东首页(https://www.jd.com/)有很多商品分类,商品分类共三级。鼠标点击三级分类中的某个具体类别后,跳转到此类别的商品列表,跳转网址以list开头。采集list开头的商品列表数据。 实例:点击【家用电器】-【电视】-【平板电视】这个分类,跳转到【平板电视】分类的商品列表,跳转网址为 https://list.jd.com/list.html?cat=737,794,798 。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理    采集字段 商品…

2023年9月5日 0条评论 56点热度 0人点赞 365crawadmin 阅读全文

有很多网站,我们需要采集需要鼠标移动上去才会出现数据。   例如:在阿里巴巴列表页,移动到非广告商品图片,会出现同款数量、同款链接等字段,我们需要采集这些数据。     在八爪鱼中该如何操作呢?来看一下具体的操作步骤。   步骤一、打开网页   在首页【输入框】中输入目标网址https://s.1688.com/selloffer/offer_search.htm?keywords=%C5%AE%D7%B0&n=y&netType=1%2C11%2C16,点击【开始采集】,八爪鱼自动打开网页。   …

2023年9月5日 0条评论 61点热度 0人点赞 365crawadmin 阅读全文

本教程将介绍企业版套餐,并讲解如何查看/管理账号下的云采集节点,优化分配策略,提高采集效率。 一、企业版基本介绍 企业版是八爪鱼SaaS版本中的最高版本。企业版处于特定集群,拥有固定的云节点数,通常为30个或100个,专为具有企业级数据采集需求的客户而设计。 而团队版(旧套餐旗舰\旗舰+版本),则处于公共集群,其节点数是浮动变化的,所有团队版(就套餐旗舰/旗舰+)用户一起争夺节点的使用权。   二、企业版可手动调整每个任务的云节点数 企业版账号下的每个任务,云采集的最大可用节点数,默认为2(即每个任务最多有2个云节…

2023年9月5日 0条评论 47点热度 0人点赞 365crawadmin 阅读全文

我们在提取一批相似网址时,页面中的字段一般是在同一位置,通过同一条定位XPath可以将其全部匹配到。 但是存在这样一种情况,同一字段在不同页面的位置略有不同。此时,我们可以尝试通过备用位置解决。例如,一个字段,在A页面和B页面的位置不同,那么可以用A页面字段的位置做规则提取字段,然后将B页面字段的位置设为备用位置。这样,AB两个页面的字段就都能被提取到。   示例网站: https://www.alibaba.com/product-detail/Clothes-Clothes-Dresses-Women-Fall…

2023年9月5日 0条评论 38点热度 0人点赞 365crawadmin 阅读全文

采集场景 采集某城市的百姓网日租短租房屋信息(示例网址(百姓网东营日租房): https://dongying.baixing.com/duanzu/m5828/)    采集字段 出租人名称、标题、价格、发布时间、详情介绍、房屋地址、页面网址等字段   点击图片可查看高清大图,下文其他图片同理    采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:       教程说明 本篇制作时间:2021/1/19    八爪鱼版本:V8.2.6 如果因网页改版造成网址或步骤无…

2023年9月5日 0条评论 48点热度 0人点赞 365crawadmin 阅读全文
1234513