有很多网站,我们需要采集需要鼠标移动上去才会出现数据。   例如:在阿里巴巴列表页,移动到非广告商品图片,会出现同款数量、同款链接等字段,我们需要采集这些数据。     在八爪鱼中该如何操作呢?来看一下具体的操作步骤。   步骤一、打开网页   在首页【输入框】中输入目标网址https://s.1688.com/selloffer/offer_search.htm?keywords=%C5%AE%D7%B0&n=y&netType=1%2C11%2C16,点击【开始采集】,八爪鱼自动打开网页。   …

2023年9月5日 0条评论 41点热度 0人点赞 365crawadmin 阅读全文

本教程将介绍企业版套餐,并讲解如何查看/管理账号下的云采集节点,优化分配策略,提高采集效率。 一、企业版基本介绍 企业版是八爪鱼SaaS版本中的最高版本。企业版处于特定集群,拥有固定的云节点数,通常为30个或100个,专为具有企业级数据采集需求的客户而设计。 而团队版(旧套餐旗舰\旗舰+版本),则处于公共集群,其节点数是浮动变化的,所有团队版(就套餐旗舰/旗舰+)用户一起争夺节点的使用权。   二、企业版可手动调整每个任务的云节点数 企业版账号下的每个任务,云采集的最大可用节点数,默认为2(即每个任务最多有2个云节…

2023年9月5日 0条评论 26点热度 0人点赞 365crawadmin 阅读全文

我们在提取一批相似网址时,页面中的字段一般是在同一位置,通过同一条定位XPath可以将其全部匹配到。 但是存在这样一种情况,同一字段在不同页面的位置略有不同。此时,我们可以尝试通过备用位置解决。例如,一个字段,在A页面和B页面的位置不同,那么可以用A页面字段的位置做规则提取字段,然后将B页面字段的位置设为备用位置。这样,AB两个页面的字段就都能被提取到。   示例网站: https://www.alibaba.com/product-detail/Clothes-Clothes-Dresses-Women-Fall…

2023年9月5日 0条评论 29点热度 0人点赞 365crawadmin 阅读全文

采集场景 采集某城市的百姓网日租短租房屋信息(示例网址(百姓网东营日租房): https://dongying.baixing.com/duanzu/m5828/)    采集字段 出租人名称、标题、价格、发布时间、详情介绍、房屋地址、页面网址等字段   点击图片可查看高清大图,下文其他图片同理    采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:       教程说明 本篇制作时间:2021/1/19    八爪鱼版本:V8.2.6 如果因网页改版造成网址或步骤无…

2023年9月5日 0条评论 29点热度 0人点赞 365crawadmin 阅读全文

有很多网站,需要向下滚动页面,才能加载出新数据。那相对应的,在八爪鱼中也需设置【页面滚动】。 适用场景:将滚动条直接下来到网页底部,出现类似【加载中】字样,稍后马上有新数据出现,且滚动条变短回弹。 常见的网页:澎湃新闻首页、今日头条首页、百度图片搜索、新浪微博首页,都是这种情况。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理   以澎湃新闻首页为例。https://www.thepaper.cn/,我们需采集新闻列表数据。就需要在打开网页后不断向下滚动,加载新数据。  …

2023年9月5日 0条评论 43点热度 0人点赞 365crawadmin 阅读全文

采集场景 今日头条是重要的新闻资讯网站,首页(https://www.toutiao.com/)默认展示最新的新闻列表,点击新闻标题,可进入新闻详情页,查看每条新闻的详情页数据。   采集字段 标题、来源、时间、正文、图片url等字段。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理    采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:     教程说明 本篇更新时间:2022/6/18   八爪鱼版本:V8.5.2 如果…

2023年9月5日 0条评论 31点热度 0人点赞 365crawadmin 阅读全文

采集场景 我们一般通过搜狗微信(https://weixin.sogou.com/),去采集微信公众号文章。搜狗微信支持【公众号搜索】,通过输入公众号名称/ID,可搜索到目标公众号,查看目标公众号相关信息(公众号ID、微信号、功能介绍、微信认证)和其最新发布的一篇文章(文章标题和文章链接),点击文章链接可进入文章详情页,查看文章正文(文字+图片)。   采集字段 公众号名称、微信号、功能介绍、微信认证公司名、文章标题、文章来源、文章作者、发布日期、文章正文。     鼠标放到图片上,右键,选择【在新标签页中打开图片…

2023年9月5日 0条评论 32点热度 0人点赞 365crawadmin 阅读全文

采集场景 打开京东商品详情页(实例网址:https://item.jd.com/100016944073.html ),采集点击不同的参数(颜色、版本等)后得到的数据(商品编号、价格、主图链接等字段会随着参数变化而变化)。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理   采集字段 商品标题、颜色、版本、价格、商品名称、商品编号、图片网址等。   采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:       教程说明 本篇…

2023年9月5日 0条评论 46点热度 0人点赞 365crawadmin 阅读全文

八爪鱼是基于网址进行数据采集的。支持从本地文件导入网址、根据规律批量生成网址、从已有任务导入网址   一、从本地文件导入网址 新建【自定义任务】,选择从【文件导入】,再选择已有的网址文件,就可以大批量导入。导入之后,可以预览前100条网址。 再点击【保存设置】,即可开始任务配置。     注意: ① 支持csv、xls、xlsx、txt文件格式批量导入网址 ② 支持100w以内网址 ,超过的自动删除   二、批量生成网址 网址中一般有很多参数,根据网址参数的变化规律,可批量生成网址。   1、网址参数中出现数字变化…

2023年9月5日 0条评论 44点热度 0人点赞 365crawadmin 阅读全文

八爪鱼提供两套API接口,均可以获取通过八爪鱼采集到的数据,实现秒级导出; 获取任务信息,无需启动八爪鱼客户端即可控制任务启停;无缝对接企业的内部系统。 第一套接口今后将不再更新,为提升您今后的使用体验,推荐您使用第二套API接口。   第一套API接口 :   于2018年4月上线,分为 数据导出API 主域名:https://dataapi.bazhuayu.com/  和 任务控制API  主域名:https://advancedapi.bazhuayu.com/     第二套API接口 : 于2021年1…

2023年9月5日 0条评论 46点热度 0人点赞 365crawadmin 阅读全文