1.功能 采集的内容,依据选择条件,进行日期大小的比较,若是不符合设置的条件,则过滤本条采集内容 此功能使用需注意: 1.采集的内容日期格式需符合  日期的格式,任意写格式或者日期是英文状态都无法有效进行判断,并且不能有其他的干扰字符,不然无法进行判断过滤 2.条件可以写固定的日期,也可以使用系统时间 3.也可以依据系统时间来进行时间的加减,来实现固定几天内的时间进行保存 下面举几个常用的使用场景作为示例 ①只保留三天内发布的数据  :首先此标签要采集发布的日期,然后内容过滤如下设置,0|0|-…

2023年9月4日 0条评论 58点热度 0人点赞 365crawadmin 阅读全文

最新版的采集器中新增加了对于http二级代理的API请求功能,下面介绍一下这个功能如何添加。 首先您需要找到一家代理IP,该代理需提供通过API获取IP的功能,下面来设置http功能 1.打开http二级代理服务器,点击批量导入。 2.点击添加按钮。直接将生成的API地址放入火车采集器地址栏处(图中画圆圈处)注意,生成的API必须是json格式,若是提供的默认正则格式不能正确获取到代理,那么需要您根据获取的Ip格式重新编写匹配正则表达式 3.勾选开启定时刷新,设置好时间后采集器会定时请求API来获取最新的IP地址。…

2023年9月4日 0条评论 95点热度 0人点赞 365crawadmin 阅读全文

   火车采集器企业版本软件是专门提供给多人协同使用的版本,因此有多种便于管理的功能,而其中的远程管理功能是其中的重要功能点。   远程管理功能使用方便,但是一开始的接口界面较简单,因此在此次V9版本中做了一个较大的改版,将界面、性能以及功能都做了优化改动,下面介绍下详细的功能介绍以及使用方法。   一.功能介绍    远程管理功能允许用户在本地启动一个服务接口,该接口可以实现对火车采集器的软件的远程管理,比如对任务进行新建、…

2023年9月4日 0条评论 75点热度 0人点赞 365crawadmin 阅读全文

火车采集器二级代理功能,默认是会对获取的代理IP进行一个验证,验证IP是否起效,这样有助于进行IP的筛选,剔除失效IP。 但有些客户有一些特殊的需求,并不需要提前验证IP的真实性,因此开发出这种免验证代理IP的功能,导入的IP直接就显示通过的状态,不会通过我们软件自带的验证功能,导入的IP立刻就能使用,及时性更高。

2023年9月4日 0条评论 94点热度 0人点赞 365crawadmin 阅读全文

在V9中内置翻译的插件,使用以下步骤: 1.下载下面这个压缩包,并解压到采集器根目录下,注意解压的过程中要关闭火车采集器 翻译插件点击下载链接 2.若您是32位系统,那么现在直接重启下火车采集器即可使用翻译插件。  若您是64位系统,那么您需要使用在火车采集器目录打开任务管理器,打开方法是:win7及以上版本支持,按住“shift”键,然后鼠标右击,在弹窗中选择“在此处打开命令窗口”。如下图所示: 并运行指令:CorFlags.exe LocoySpider.exe /32BIT+,然后重启火车采集器即可…

2023年9月4日 0条评论 72点热度 0人点赞 365crawadmin 阅读全文

  下面介绍下火车采集器二级代理功能,我们按照实际在规则中设置的方式来介绍下如何在火车采集器中使用二级代理列表 1.获取IP 获取ip有三种方式: (1)手动添加:可以手动添加不同类型的IP,并添加用户名密码 (2)文本导入:通过文本导入,文本中IP一行一个保存,然后点击导入按钮保存即可 (3)商业代理IP导入 首先,我们要[点击启用]。然后使用商业代理网站提供的api网址来获取代理IP,一行一个的格式即可,比如如图,在浏览器中打开该网址(这类api是由代理IP网站提供的api接口),可以获取到两个一行一…

2023年9月4日 0条评论 61点热度 0人点赞 365crawadmin 阅读全文

起始网址目前支持四种导入方式,下面介绍数据库导入功能: 数据库导入支持mysql以及sqlserver两种数据库类型, 在使用此功能时需要填写数据库相应的连接信息,以及所需信息所在数据库、表以及列信息。 若所在列需要有where条件查询,如下图,where条件写在数据查询语句中,需要注意的是,不需要写where此关键词,直接写具体条件语句即可

2023年9月4日 0条评论 61点热度 0人点赞 365crawadmin 阅读全文

一.功能介绍:        采集器运行任务时候,通过访问指定的网页来获取cookie进行调用。 使用场景:        1,cookie失效后无法正常采集的规则,通过设置该功能实现自动获取网页cookie调用,从而达到不需要再手动更换cookie,规则可以正常自动运行采集。        2,一些网站需要在本地浏览器中打开页面浏览从而…

2023年9月4日 0条评论 69点热度 0人点赞 365crawadmin 阅读全文

如下图: 编辑标签界面,文件下载选项,勾选探测文件并下载,会把采集到的任何格式的文件附件下载下来,包含常见的图片。 顺便说下其他选项: “将相对地址补全为绝对地址”:勾选这个,会把标签采集到相对地址补全为绝对地址。 “下载图片”:采集器是不认识什么是图片的,只要代码格式是<img src=”图片地址”/>采集器才认为这个是图片,仅仅是图片的地址,勾选这个是不会下载的,很多用户都没有明白这点。 “探测文件真实地址但不下载”:有时候采集到的附件下载地址,其实不是真实的的下载地址,点击后是会有跳转的,勾选这个…

2023年9月4日 0条评论 62点热度 0人点赞 365crawadmin 阅读全文

   在采集网站时,如果目标网站有防采集机制,那么就无法达到批量采集的目的,这里介绍下火车采集器中的二级代理功能,可以在火车采集器中调用代理IP以及拨号功能    一.二级代理功能 二级代理功能分为两种类型:固定代理以及商业代理,下面介绍下,使用二级代理功能前需要先进行的设置: 1.设置  [代理验证网页及数据缓存设置]:点击如图向下箭头可设置此步骤,此步骤是用于验证代理IP是否可用。原理是通过设置代理IP访问地址,若是能正常返回设定的字符,则代理IP验证通过。 这…

2023年9月4日 0条评论 86点热度 0人点赞 365crawadmin 阅读全文