火车采集器企业版本软件是专门提供给多人协同使用的版本,因此有多种便于管理的功能,而其中的远程管理功能是其中的重要功能点。   远程管理功能使用方便,但是一开始的接口界面较简单,因此在此次V9版本中做了一个较大的改版,将界面、性能以及功能都做了优化改动,下面介绍下详细的功能介绍以及使用方法。   一.功能介绍    远程管理功能允许用户在本地启动一个服务接口,该接口可以实现对火车采集器的软件的远程管理,比如对任务进行新建、…

2023年9月4日 0条评论 64点热度 0人点赞 365crawadmin 阅读全文

火车采集器二级代理功能,默认是会对获取的代理IP进行一个验证,验证IP是否起效,这样有助于进行IP的筛选,剔除失效IP。 但有些客户有一些特殊的需求,并不需要提前验证IP的真实性,因此开发出这种免验证代理IP的功能,导入的IP直接就显示通过的状态,不会通过我们软件自带的验证功能,导入的IP立刻就能使用,及时性更高。

2023年9月4日 0条评论 77点热度 0人点赞 365crawadmin 阅读全文

 火车采集器可以抓取http以及https请求中的内容,因此只要手机APP是这两种请求类型,那么其中的内容理论上就是可以抓取的。下面介绍下怎么抓取手机APP的请求。下面以苹果手机中的京东APP为例: (1)查看fiddler的端口号为多少,例下图: (2)查看本地局域网的固定IP为多少,例下图: (3)在手机中设置代理服务器,将端口号以及IP写入,例下图: 如上图设置好后,就可以将fiddler保持Capturing的状态,然后操作京东的APP,就可以看到其中的请求了,如下图: 然后你就可以在采集器中做规…

2023年9月4日 0条评论 32点热度 0人点赞 365crawadmin 阅读全文

火车浏览器导出的cookie是所有打开页面的cookie,而火车采集器在调用该cookie时,若有多个相同的key ,则以最上面的key为准,如下图: 则这可能会导致火车采集器调用未登录的key ,导致无法采集登录后的内容。想要解决这种问题,有一下两种方式: 1.登录前,调用Cookie操作,清空火车浏览器中cookie 2.若清空cookie后,还是有相同的key ,则需先导出cookie至文本中,然后使用文件操作读取文本中cookie至list 变量,使用变量清理功能清除list变量中无效的key 。然后将li…

2023年9月4日 0条评论 56点热度 0人点赞 365crawadmin 阅读全文

  下面介绍下火车采集器二级代理功能,我们按照实际在规则中设置的方式来介绍下如何在火车采集器中使用二级代理列表 1.获取IP 获取ip有三种方式: (1)手动添加:可以手动添加不同类型的IP,并添加用户名密码 (2)文本导入:通过文本导入,文本中IP一行一个保存,然后点击导入按钮保存即可 (3)商业代理IP导入 首先,我们要[点击启用]。然后使用商业代理网站提供的api网址来获取代理IP,一行一个的格式即可,比如如图,在浏览器中打开该网址(这类api是由代理IP网站提供的api接口),可以获取到两个一行一…

2023年9月4日 0条评论 43点热度 0人点赞 365crawadmin 阅读全文

采集器可以通过设置的词库,来进行中文分词,就是经常说的自动提取关键词。 1, 设置词库 如下图: 如上图 工具==》中文分词管理,来进行中文分词管理 点击上图的“分词”按钮,来使用采集器内置的词库,进行分词测试。 点击右下角的“编辑用户词库”,打开下图: “分词高级设置”:是通过你选择的词性来进行分词。 “用户使用词库”:在这里添加的词,只要在采集结果里面出现,就会被提取为关键词。 “用户禁用词库”:顾名思义,这里添加的词,在采集结果里面出现,是不会做为关键词提取出来的。 设置好了点击“保存”按钮,保存。 2, 分…

2023年9月4日 0条评论 63点热度 0人点赞 365crawadmin 阅读全文

需要插入的关键词或者语句写到文本里面,并且文本编码必须是utf8,如何把文本编码设置为utf-8看下图: 选择另存为,编码选择如下图: 在编辑标签界面,数据处理然后选择高级功能再选择随机插入如下图: 插入设置选项如下图: 按照上图说明文字,做对应插入设置。

2023年9月4日 0条评论 71点热度 0人点赞 365crawadmin 阅读全文

 发布模块发布错误的时候可能有很多的原因。下面列举几种情况: 1.发布时提示发布成功未知,这个有几种可能情况, ①发布模块中未写成功标识码:只有写了成功标识,程序才能根据该标识判断你是上传成功了。成功标识码是从你发布后返回的源代码中获取的,也就是你在的网站手动发布一篇文章,然后看下提示成功的页面的源代码中有什么字符,以该字符作为成功标识码。一般都是成功什么什么,不过还是要根据你网站实际返回源代码来判断 ②你已经写好了成功标识码,但是还是提示发布成功未知,这个可能是因为你的网站响应较慢,发布成功的源码返回较…

2023年9月4日 0条评论 38点热度 0人点赞 365crawadmin 阅读全文

   OSS上传功能为将火车采集器下载的附件、图片等文件传送到阿里云对象存储OSS中,便于使用阿里云存储的客户进行数据的管理。    下面介绍下具体用法以及选项含义: (1)填写服务器信息中所需的oss配置信息。        oss服务器地址:根据自己服务器的地域节点填写,需要注意这里的地址是地域节点,而不是Bucket节点地址,不要填写错误哦。      &nbs…

2023年9月4日 0条评论 59点热度 0人点赞 365crawadmin 阅读全文

获取当前采集页的网址,可以按下面设置, 正则提取规则为: ^(?<content>[\s\S]*?)$ 

2023年9月4日 0条评论 58点热度 0人点赞 365crawadmin 阅读全文