火车采集器二级代理功能,默认是会对获取的代理IP进行一个验证,验证IP是否起效,这样有助于进行IP的筛选,剔除失效IP。 但有些客户有一些特殊的需求,并不需要提前验证IP的真实性,因此开发出这种免验证代理IP的功能,导入的IP直接就显示通过的状态,不会通过我们软件自带的验证功能,导入的IP立刻就能使用,及时性更高。
火车采集器二级代理功能,默认是会对获取的代理IP进行一个验证,验证IP是否起效,这样有助于进行IP的筛选,剔除失效IP。 但有些客户有一些特殊的需求,并不需要提前验证IP的真实性,因此开发出这种免验证代理IP的功能,导入的IP直接就显示通过的状态,不会通过我们软件自带的验证功能,导入的IP立刻就能使用,及时性更高。
在V9中内置翻译的插件,使用以下步骤: 1.下载下面这个压缩包,并解压到采集器根目录下,注意解压的过程中要关闭火车采集器 翻译插件点击下载链接 2.若您是32位系统,那么现在直接重启下火车采集器即可使用翻译插件。 若您是64位系统,那么您需要使用在火车采集器目录打开任务管理器,打开方法是:win7及以上版本支持,按住“shift”键,然后鼠标右击,在弹窗中选择“在此处打开命令窗口”。如下图所示: 并运行指令:CorFlags.exe LocoySpider.exe /32BIT+,然后重启火车采集器即可…
下面介绍下火车采集器二级代理功能,我们按照实际在规则中设置的方式来介绍下如何在火车采集器中使用二级代理列表 1.获取IP 获取ip有三种方式: (1)手动添加:可以手动添加不同类型的IP,并添加用户名密码 (2)文本导入:通过文本导入,文本中IP一行一个保存,然后点击导入按钮保存即可 (3)商业代理IP导入 首先,我们要[点击启用]。然后使用商业代理网站提供的api网址来获取代理IP,一行一个的格式即可,比如如图,在浏览器中打开该网址(这类api是由代理IP网站提供的api接口),可以获取到两个一行一…
起始网址目前支持四种导入方式,下面介绍数据库导入功能: 数据库导入支持mysql以及sqlserver两种数据库类型, 在使用此功能时需要填写数据库相应的连接信息,以及所需信息所在数据库、表以及列信息。 若所在列需要有where条件查询,如下图,where条件写在数据查询语句中,需要注意的是,不需要写where此关键词,直接写具体条件语句即可
一.功能介绍: 采集器运行任务时候,通过访问指定的网页来获取cookie进行调用。 使用场景: 1,cookie失效后无法正常采集的规则,通过设置该功能实现自动获取网页cookie调用,从而达到不需要再手动更换cookie,规则可以正常自动运行采集。 2,一些网站需要在本地浏览器中打开页面浏览从而…
如下图: 编辑标签界面,文件下载选项,勾选探测文件并下载,会把采集到的任何格式的文件附件下载下来,包含常见的图片。 顺便说下其他选项: “将相对地址补全为绝对地址”:勾选这个,会把标签采集到相对地址补全为绝对地址。 “下载图片”:采集器是不认识什么是图片的,只要代码格式是<img src=”图片地址”/>采集器才认为这个是图片,仅仅是图片的地址,勾选这个是不会下载的,很多用户都没有明白这点。 “探测文件真实地址但不下载”:有时候采集到的附件下载地址,其实不是真实的的下载地址,点击后是会有跳转的,勾选这个…
在采集网站时,如果目标网站有防采集机制,那么就无法达到批量采集的目的,这里介绍下火车采集器中的二级代理功能,可以在火车采集器中调用代理IP以及拨号功能 一.二级代理功能 二级代理功能分为两种类型:固定代理以及商业代理,下面介绍下,使用二级代理功能前需要先进行的设置: 1.设置 [代理验证网页及数据缓存设置]:点击如图向下箭头可设置此步骤,此步骤是用于验证代理IP是否可用。原理是通过设置代理IP访问地址,若是能正常返回设定的字符,则代理IP验证通过。 这…
对于会更新数据的网站,如果可以通过一个字段判断该网页数据是否更新,则可以编写存储过程来实现,数据库中已有数据的更新,然后新增数据直接插入数据库的功能: 存储过程语句如下: CREATE DEFINER=`root`@`%` PROCEDURE `yhaves`(IN `gaame` VARCHAR(50), IN `plorm` VARCHAR(50), IN `serrea` VARCHAR(200)) LANGUAGE SQL  …
COS上传功能为将火车采集器下载的附件、图片等文件传送到腾讯云存储空间中,便于使用腾讯云的客户进行数据的管理。 下面介绍下具体用法以及选项含义: (1) COS 配置 SecretId : 对应cos的SecretId,上传的授权信息 SecretKey : 对应cos的SecretKey,上传的授权信息 文件存放区域 :根据实际存放区域填写,格式形如 ap-shanghai 存储桶 :存储的空间名称 位置标识符 :存储的文件夹名称,若不存在该文件夹将自动创建 (2…