配置好了八爪鱼采集规则后,我们可以对规则进行一些优化,以更稳定地采集更完整的数据。 优化方向主要有以下四种:   一、设置执行前等待 二、设置/调整Ajax超时 三、设置页面滚动 四、检查新标签的勾选是否正确     一、设置执行前等待 执行前等待的意思是:在当前步骤等待一段时间,再执行下一个步骤。   1、为什么要设置执行前等待? 原因①:避免执行步骤速度太快,很多时候网页还没加载完全就提取数据了,导致采集不到目标数据。 原因②:对于一些防采集严重的网站,如淘宝、大众点评等,适当的设置执行前等待,放慢采集速度,可…

2023年9月5日 0条评论 34点热度 0人点赞 365crawadmin 阅读全文

一、定时本地采集是什么?   支持对执行本地采集的任务设置定时启动,大幅提高本地采集性能。   二、如何设置定时本地采集   1、在任务编辑页面设置【定时本地采集】 打开目标任务编辑页面,点击【采集】,再点击【定时本地采集】,会弹出一个【定时本地采集】设置的弹窗。 支持多种定时方式:【只采集一次】【选择星期】【每月采集】【间隔时间采集】。请根据需求,选择定时方式。 设置完成后,点击【保存并启动】即可。     2、在任务列表页面设置【定时本地采集】 找到目标任务,点击【更多操作】的   按钮,选择【本地采集】-【设…

2023年9月5日 0条评论 24点热度 0人点赞 365crawadmin 阅读全文

User-Agent 即用户代理,简称“UA”,它是一个特殊字符串头。网站服务器通过识别 “UA”来确定用户所使用的操作系统版本、CPU 类型、浏览器版本等信息。而网站服务器则通过判断 UA 来给客户端发送不同的页面。 由于网站会对UA进行过滤,有些老旧的UA会打不开该网页。此时就可以通过切换不同的UA来打开网页。以下教程讲解如何获取浏览器中的UA,以及将获得的UA保存在八爪鱼中。 方法一:以Chrome(谷歌)浏览器为例,在地址栏输入about:version,即可出现如下信息。图中的【用户代理】即【User-A…

2023年9月5日 0条评论 22点热度 0人点赞 365crawadmin 阅读全文

云采集监控预警平台   平台简介  八爪鱼「云采集监控预警」上线,通过平台可查看账号节点使用情况、采集数据量等,同时可对任务设置监控,从而实现对任务的监控预警。   使用版本限制 仅限企业版用户使用。   一、进入云采集监控预警平台   1.进入平台 a.可直接访问https://jk.bazhuayu.com/后登录账号密码   b.下载官网的8.5.1以上的版本安装打开,点击客户端左侧【工具】-【云采集监控预警】按钮进入  

2023年9月5日 0条评论 30点热度 0人点赞 365crawadmin 阅读全文

什么是防采集?   用大白话来说,就是我们想利用工具采集某个网站的数据(前提当然是公开合法数据),但网站不想给你采集而设置的技术阻挡措施。     网站常见的防采集套路有哪些?     防采套路1:输入验证码框验证   采集难度:★☆☆☆☆ 常见网站:搜狗微信   在采集某些网站过程中,爪子们是不是经常会遇到这样的情况,要求你输入验证码,否则就卡住进行不下去?   对的,这是网站最常用且最基础的防采措施之一,它要求你必须你手动输入验证码里的数字和字母,才能继续看到更多信息或者进行下一步,以此来判断你是机器人还是真人…

2023年9月5日 0条评论 26点热度 0人点赞 365crawadmin 阅读全文

采集场景 在智联招聘地区招聘搜索页(https://sou.zhaopin.com/?jl=765), 输入关键词搜索(示例中的搜索关键词为【爬虫工程师】),搜索后得到招聘信息列表页。点击职位链接,进入职位详情页,采集详情页数据。   采集字段 职位名称、职位薪资、职位描述、职位链接等。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理   采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:     采集步骤 步骤一:打开网页 …

2023年9月5日 0条评论 31点热度 0人点赞 365crawadmin 阅读全文

1.功能 采集的内容,依据选择条件,进行日期大小的比较,若是不符合设置的条件,则过滤本条采集内容 此功能使用需注意: 1.采集的内容日期格式需符合  日期的格式,任意写格式或者日期是英文状态都无法有效进行判断,并且不能有其他的干扰字符,不然无法进行判断过滤 2.条件可以写固定的日期,也可以使用系统时间 3.也可以依据系统时间来进行时间的加减,来实现固定几天内的时间进行保存 下面举几个常用的使用场景作为示例 ①只保留三天内发布的数据  :首先此标签要采集发布的日期,然后内容过滤如下设置,0|0|-…

2023年9月4日 0条评论 38点热度 0人点赞 365crawadmin 阅读全文

1.服务器信息 七牛AccessKey以及七牛SecretKey在七牛云的个人中心的秘钥管理可以查看,复制粘贴进入火车采集器对应选项中即可 文件存放区域:根据空间的存储区域选择 七牛空间名称:存储空间的名称 2.上传目录 七牛云的上传目录为  文件下载中的[文件保存目录],仅根据这个目录地址进行传输,其他关于路径的配置不起效。 注意:上传配置中的  文件上传根目录对于七牛云上传路径不起作用,不用填写。

2023年9月4日 0条评论 19点热度 0人点赞 365crawadmin 阅读全文

将有效的User-Agent放在文本中,然后在火车采集器中调用该文本,即可实现随机调用UA的功能,达到采集时随机更换UA的目的

2023年9月4日 0条评论 58点热度 0人点赞 365crawadmin 阅读全文

目前大多数浏览器都会自带开发者工具(一般按f12即可出现),网页的cookie以及网址打开后加载的各类信息都是可以看到的。 下面以谷歌浏览器为例: 1.在谷歌浏览器里打开http://www.sd-portygzc.com/jyxx/project.html网址 这个网址点击分页时,会发现网址是不变,这个就是典型的需要抓包真实链接的post网址。 2.从右上角自定义控制里打开开发者工具或者直接按f12运行, 3.开启工具后,点击翻页后,工具里出现了个链接,这个就是网址的翻页的请求信息 4.有些网址翻页请求的信息是不…

2023年9月4日 0条评论 53点热度 0人点赞 365crawadmin 阅读全文
1383940414246