一.功能介绍:        采集器运行任务时候,通过访问指定的网页来获取cookie进行调用。 使用场景:        1,cookie失效后无法正常采集的规则,通过设置该功能实现自动获取网页cookie调用,从而达到不需要再手动更换cookie,规则可以正常自动运行采集。        2,一些网站需要在本地浏览器中打开页面浏览从而…

2023年9月4日 0条评论 77点热度 0人点赞 365crawadmin 阅读全文

如下图: 编辑标签界面,文件下载选项,勾选探测文件并下载,会把采集到的任何格式的文件附件下载下来,包含常见的图片。 顺便说下其他选项: “将相对地址补全为绝对地址”:勾选这个,会把标签采集到相对地址补全为绝对地址。 “下载图片”:采集器是不认识什么是图片的,只要代码格式是<img src=”图片地址”/>采集器才认为这个是图片,仅仅是图片的地址,勾选这个是不会下载的,很多用户都没有明白这点。 “探测文件真实地址但不下载”:有时候采集到的附件下载地址,其实不是真实的的下载地址,点击后是会有跳转的,勾选这个…

2023年9月4日 0条评论 65点热度 0人点赞 365crawadmin 阅读全文

   在采集网站时,如果目标网站有防采集机制,那么就无法达到批量采集的目的,这里介绍下火车采集器中的二级代理功能,可以在火车采集器中调用代理IP以及拨号功能    一.二级代理功能 二级代理功能分为两种类型:固定代理以及商业代理,下面介绍下,使用二级代理功能前需要先进行的设置: 1.设置  [代理验证网页及数据缓存设置]:点击如图向下箭头可设置此步骤,此步骤是用于验证代理IP是否可用。原理是通过设置代理IP访问地址,若是能正常返回设定的字符,则代理IP验证通过。 这…

2023年9月4日 0条评论 91点热度 0人点赞 365crawadmin 阅读全文

  对于会更新数据的网站,如果可以通过一个字段判断该网页数据是否更新,则可以编写存储过程来实现,数据库中已有数据的更新,然后新增数据直接插入数据库的功能: 存储过程语句如下: CREATE DEFINER=`root`@`%` PROCEDURE `yhaves`(IN `gaame` VARCHAR(50), IN `plorm` VARCHAR(50), IN `serrea` VARCHAR(200))    LANGUAGE SQL    …

2023年9月4日 0条评论 50点热度 0人点赞 365crawadmin 阅读全文

COS上传功能为将火车采集器下载的附件、图片等文件传送到腾讯云存储空间中,便于使用腾讯云的客户进行数据的管理。    下面介绍下具体用法以及选项含义: (1)  COS 配置 SecretId  : 对应cos的SecretId,上传的授权信息 SecretKey : 对应cos的SecretKey,上传的授权信息 文件存放区域 :根据实际存放区域填写,格式形如 ap-shanghai 存储桶 :存储的空间名称 位置标识符 :存储的文件夹名称,若不存在该文件夹将自动创建 (2…

2023年9月4日 0条评论 68点热度 0人点赞 365crawadmin 阅读全文

      关联区域功能,可以先截取网页中指定区域内容,然后将该区域作为数据来源再进行采集处理。       关联区域功能有利于网页结构重复或者复杂的网页形式的分析以及采集。       下面介绍下关联区域功能的用法:         以网址:http://www.locoy.com/downloa…

2023年9月4日 0条评论 83点热度 0人点赞 365crawadmin 阅读全文

火车采集器数据获取新增支持CSS selector,很多网页的css 的属性唯一,此功能更利于批量从网页中提取数据。  如要系统性学习css提取的知识,可以先看下教程:https://www.w3school.com.cn/cssref/css_selectors.asp。 在火车采集器集成了css提取功能,直接将css路径填写在界面中即可使用。Selector中填写css路径,节点属性选择需要采集的属性。 比如: 注意:只有网页源码中有的元素,才能使用css获取,若是源码中没有而是浏览器渲染过后才展示的…

2023年9月4日 0条评论 69点热度 0人点赞 365crawadmin 阅读全文

 自动分析表格中列名以及循环采集列中数值,下面以:http://www.bjtzh.gov.cn/bjtz/home/jrcj/index.shtml,网站为例演示使用方法: 1.首先在请求源码中找到表格的前后字符,注意这里的字符要包含整个表格,包括列名列值,不要缺少内容 2.在火车采集器其他设置中设置范围,并点击测试自动生成标签。然后就会分析代码生成对应标签,任务保存即可。

2023年9月4日 0条评论 66点热度 0人点赞 365crawadmin 阅读全文

1.服务器信息 七牛AccessKey以及七牛SecretKey在七牛云的个人中心的秘钥管理可以查看,复制粘贴进入火车采集器对应选项中即可 文件存放区域:根据空间的存储区域选择 七牛空间名称:存储空间的名称 2.上传目录 七牛云的上传目录为  文件下载中的[文件保存目录],仅根据这个目录地址进行传输,其他关于路径的配置不起效。 注意:上传配置中的  文件上传根目录对于七牛云上传路径不起作用,不用填写。

2023年9月4日 0条评论 48点热度 0人点赞 365crawadmin 阅读全文

  此功能是针对用户需求为:采集内容包含某个字符即将该字段的所有内容都替换为某个固定的内容。   使用场景例如:我们从对方网站采集城市名称,然后城市名称示例:浙江省杭州市,我们需要将这个内容替换为杭州,这时就可以使用自动分类功能。  下面以百度为例介绍下用法: 如上图,我们想要将包含百度的标题 内容更替换为 常用搜索网站,则写成如下格式: 运行结果为: 如上就是自动分类的使用方法。 其中需要注意的是:1.一行一个分类,可以写多个分类。若是一个关键词符合多个分类,则优先替换上面的分类,按…

2023年9月4日 0条评论 84点热度 1人点赞 365crawadmin 阅读全文