需要插入的关键词或者语句写到文本里面,并且文本编码必须是utf8,如何把文本编码设置为utf-8看下图: 选择另存为,编码选择如下图: 在编辑标签界面,数据处理然后选择高级功能再选择随机插入如下图: 插入设置选项如下图: 按照上图说明文字,做对应插入设置。

2023年9月4日 0条评论 71点热度 0人点赞 365crawadmin 阅读全文

采集器可以通过设置的词库,来进行中文分词,就是经常说的自动提取关键词。 1, 设置词库 如下图: 如上图 工具==》中文分词管理,来进行中文分词管理 点击上图的“分词”按钮,来使用采集器内置的词库,进行分词测试。 点击右下角的“编辑用户词库”,打开下图: “分词高级设置”:是通过你选择的词性来进行分词。 “用户使用词库”:在这里添加的词,只要在采集结果里面出现,就会被提取为关键词。 “用户禁用词库”:顾名思义,这里添加的词,在采集结果里面出现,是不会做为关键词提取出来的。 设置好了点击“保存”按钮,保存。 2, 分…

2023年9月4日 0条评论 64点热度 0人点赞 365crawadmin 阅读全文

        1. 当采集器在服务器无法登陆时,如果抓包分析请求接口返回502状态码,可以尝试关闭防火墙放行918端口,浏览器请求地址 http://115.29.224.93:918/,看看是否可以正常打开。 2. 如若还是登陆失败,请检查本地“本地安全策略”中的“IP安全策略”,是否有建立新的IP安全策略,如果有直接把“策略已指派”改为“否”即可正常登陆采集器(修改方式:新建的ip安全策略记录上右击,菜单里面有个“所有任务选线”设置为“否”…

2023年9月4日 0条评论 55点热度 0人点赞 365crawadmin 阅读全文

导致此问题的原因是系统的.net方面的问题,请安装此.net,然后重启电脑打开火车采集器试下:点击打开链接

2023年9月4日 0条评论 40点热度 0人点赞 365crawadmin 阅读全文

插件下载地址:点击下载插件 在火车采集器中如何安装智能原创插件 第一步,使用解压软件,提取插件安装包中的文件,解压到一个文件夹中。 第二步,打开解压后的文件夹,将里面的【5118 智能原创.dll】文件,放入在【火车采集器】安装目录下的Plugins文件夹里。 第三步,将文件夹中的【5118智能原创配置工具.exe】和【Newtonsoft.Json.dll】以及【Plugin_Helper.dll】文件,放入在【火车采集器】安装目录中。 第四步,在【火车采集器】的根目录里,打开【5118 智能原创配置工具.exe…

2023年9月4日 0条评论 54点热度 0人点赞 365crawadmin 阅读全文

   在采集网站时,如果目标网站有防采集机制,那么就无法达到批量采集的目的,这里介绍下火车采集器中的二级代理功能,可以在火车采集器中调用代理IP以及拨号功能    一.二级代理功能 二级代理功能分为两种类型:固定代理以及商业代理,下面介绍下,使用二级代理功能前需要先进行的设置: 1.设置  [代理验证网页及数据缓存设置]:点击如图向下箭头可设置此步骤,此步骤是用于验证代理IP是否可用。原理是通过设置代理IP访问地址,若是能正常返回设定的字符,则代理IP验证通过。 这…

2023年9月4日 0条评论 72点热度 0人点赞 365crawadmin 阅读全文

如下图: 编辑标签界面,文件下载选项,勾选探测文件并下载,会把采集到的任何格式的文件附件下载下来,包含常见的图片。 顺便说下其他选项: “将相对地址补全为绝对地址”:勾选这个,会把标签采集到相对地址补全为绝对地址。 “下载图片”:采集器是不认识什么是图片的,只要代码格式是<img src=”图片地址”/>采集器才认为这个是图片,仅仅是图片的地址,勾选这个是不会下载的,很多用户都没有明白这点。 “探测文件真实地址但不下载”:有时候采集到的附件下载地址,其实不是真实的的下载地址,点击后是会有跳转的,勾选这个…

2023年9月4日 0条评论 33点热度 0人点赞 365crawadmin 阅读全文

一.功能介绍:        采集器运行任务时候,通过访问指定的网页来获取cookie进行调用。 使用场景:        1,cookie失效后无法正常采集的规则,通过设置该功能实现自动获取网页cookie调用,从而达到不需要再手动更换cookie,规则可以正常自动运行采集。        2,一些网站需要在本地浏览器中打开页面浏览从而…

2023年9月4日 0条评论 44点热度 0人点赞 365crawadmin 阅读全文

起始网址目前支持四种导入方式,下面介绍数据库导入功能: 数据库导入支持mysql以及sqlserver两种数据库类型, 在使用此功能时需要填写数据库相应的连接信息,以及所需信息所在数据库、表以及列信息。 若所在列需要有where条件查询,如下图,where条件写在数据查询语句中,需要注意的是,不需要写where此关键词,直接写具体条件语句即可

2023年9月4日 0条评论 41点热度 0人点赞 365crawadmin 阅读全文

  下面介绍下火车采集器二级代理功能,我们按照实际在规则中设置的方式来介绍下如何在火车采集器中使用二级代理列表 1.获取IP 获取ip有三种方式: (1)手动添加:可以手动添加不同类型的IP,并添加用户名密码 (2)文本导入:通过文本导入,文本中IP一行一个保存,然后点击导入按钮保存即可 (3)商业代理IP导入 首先,我们要[点击启用]。然后使用商业代理网站提供的api网址来获取代理IP,一行一个的格式即可,比如如图,在浏览器中打开该网址(这类api是由代理IP网站提供的api接口),可以获取到两个一行一…

2023年9月4日 0条评论 43点热度 0人点赞 365crawadmin 阅读全文