一.功能介绍: 采集器运行任务时候,通过访问指定的网页来获取cookie进行调用。 使用场景: 1,cookie失效后无法正常采集的规则,通过设置该功能实现自动获取网页cookie调用,从而达到不需要再手动更换cookie,规则可以正常自动运行采集。 2,一些网站需要在本地浏览器中打开页面浏览从而…
一.功能介绍: 采集器运行任务时候,通过访问指定的网页来获取cookie进行调用。 使用场景: 1,cookie失效后无法正常采集的规则,通过设置该功能实现自动获取网页cookie调用,从而达到不需要再手动更换cookie,规则可以正常自动运行采集。 2,一些网站需要在本地浏览器中打开页面浏览从而…
如下图: 编辑标签界面,文件下载选项,勾选探测文件并下载,会把采集到的任何格式的文件附件下载下来,包含常见的图片。 顺便说下其他选项: “将相对地址补全为绝对地址”:勾选这个,会把标签采集到相对地址补全为绝对地址。 “下载图片”:采集器是不认识什么是图片的,只要代码格式是<img src=”图片地址”/>采集器才认为这个是图片,仅仅是图片的地址,勾选这个是不会下载的,很多用户都没有明白这点。 “探测文件真实地址但不下载”:有时候采集到的附件下载地址,其实不是真实的的下载地址,点击后是会有跳转的,勾选这个…
在采集网站时,如果目标网站有防采集机制,那么就无法达到批量采集的目的,这里介绍下火车采集器中的二级代理功能,可以在火车采集器中调用代理IP以及拨号功能 一.二级代理功能 二级代理功能分为两种类型:固定代理以及商业代理,下面介绍下,使用二级代理功能前需要先进行的设置: 1.设置 [代理验证网页及数据缓存设置]:点击如图向下箭头可设置此步骤,此步骤是用于验证代理IP是否可用。原理是通过设置代理IP访问地址,若是能正常返回设定的字符,则代理IP验证通过。 这…
对于会更新数据的网站,如果可以通过一个字段判断该网页数据是否更新,则可以编写存储过程来实现,数据库中已有数据的更新,然后新增数据直接插入数据库的功能: 存储过程语句如下: CREATE DEFINER=`root`@`%` PROCEDURE `yhaves`(IN `gaame` VARCHAR(50), IN `plorm` VARCHAR(50), IN `serrea` VARCHAR(200)) LANGUAGE SQL  …
COS上传功能为将火车采集器下载的附件、图片等文件传送到腾讯云存储空间中,便于使用腾讯云的客户进行数据的管理。 下面介绍下具体用法以及选项含义: (1) COS 配置 SecretId : 对应cos的SecretId,上传的授权信息 SecretKey : 对应cos的SecretKey,上传的授权信息 文件存放区域 :根据实际存放区域填写,格式形如 ap-shanghai 存储桶 :存储的空间名称 位置标识符 :存储的文件夹名称,若不存在该文件夹将自动创建 (2…
火车采集器数据获取新增支持CSS selector,很多网页的css 的属性唯一,此功能更利于批量从网页中提取数据。 如要系统性学习css提取的知识,可以先看下教程:https://www.w3school.com.cn/cssref/css_selectors.asp。 在火车采集器集成了css提取功能,直接将css路径填写在界面中即可使用。Selector中填写css路径,节点属性选择需要采集的属性。 比如: 注意:只有网页源码中有的元素,才能使用css获取,若是源码中没有而是浏览器渲染过后才展示的…
此功能是针对用户需求为:采集内容包含某个字符即将该字段的所有内容都替换为某个固定的内容。 使用场景例如:我们从对方网站采集城市名称,然后城市名称示例:浙江省杭州市,我们需要将这个内容替换为杭州,这时就可以使用自动分类功能。 下面以百度为例介绍下用法: 如上图,我们想要将包含百度的标题 内容更替换为 常用搜索网站,则写成如下格式: 运行结果为: 如上就是自动分类的使用方法。 其中需要注意的是:1.一行一个分类,可以写多个分类。若是一个关键词符合多个分类,则优先替换上面的分类,按…