采集器可以通过设置的词库,来进行中文分词,就是经常说的自动提取关键词。 1, 设置词库 如下图: 如上图 工具==》中文分词管理,来进行中文分词管理 点击上图的“分词”按钮,来使用采集器内置的词库,进行分词测试。 点击右下角的“编辑用户词库”,打开下图: “分词高级设置”:是通过你选择的词性来进行分词。 “用户使用词库”:在这里添加的词,只要在采集结果里面出现,就会被提取为关键词。 “用户禁用词库”:顾名思义,这里添加的词,在采集结果里面出现,是不会做为关键词提取出来的。 设置好了点击“保存”按钮,保存。 2, 分…

2023年9月4日 0条评论 87点热度 0人点赞 365crawadmin 阅读全文

需要插入的关键词或者语句写到文本里面,并且文本编码必须是utf8,如何把文本编码设置为utf-8看下图: 选择另存为,编码选择如下图: 在编辑标签界面,数据处理然后选择高级功能再选择随机插入如下图: 插入设置选项如下图: 按照上图说明文字,做对应插入设置。

2023年9月4日 0条评论 105点热度 0人点赞 365crawadmin 阅读全文

 发布模块发布错误的时候可能有很多的原因。下面列举几种情况: 1.发布时提示发布成功未知,这个有几种可能情况, ①发布模块中未写成功标识码:只有写了成功标识,程序才能根据该标识判断你是上传成功了。成功标识码是从你发布后返回的源代码中获取的,也就是你在的网站手动发布一篇文章,然后看下提示成功的页面的源代码中有什么字符,以该字符作为成功标识码。一般都是成功什么什么,不过还是要根据你网站实际返回源代码来判断 ②你已经写好了成功标识码,但是还是提示发布成功未知,这个可能是因为你的网站响应较慢,发布成功的源码返回较…

2023年9月4日 0条评论 61点热度 0人点赞 365crawadmin 阅读全文

获取当前采集页的网址,可以按下面设置, 正则提取规则为: ^(?<content>[\s\S]*?)$ 

2023年9月4日 0条评论 74点热度 0人点赞 365crawadmin 阅读全文

“火车伪原创插件.dll” 文件放到Plugins目录下。 “火车伪原创插件配置工具.exe” 文件放在采集器根目录下,和LocoySpider.exe放在同一目录。 通过使用配置工具来 填写账号、密码等信息即可。   新建任务,创建"标题"和"内容"标签,   然后在其他设置中->插件->采集结果处理插件,选择"火车伪原创插件.dll"即可。 下载链接:点击打开链接 注意: (1)若是运行插件时出现如下…

2023年9月4日 0条评论 73点热度 0人点赞 365crawadmin 阅读全文

压缩包中包含V9版本下各种类型插件的开发文档介绍,可自行下载学习: 点击下载

2023年9月4日 0条评论 147点热度 0人点赞 365crawadmin 阅读全文

在V9中内置翻译的插件,使用以下步骤: 1.下载下面这个压缩包,并解压到采集器根目录下,注意解压的过程中要关闭火车采集器 翻译插件点击下载链接 2.若您是32位系统,那么现在直接重启下火车采集器即可使用翻译插件。  若您是64位系统,那么您需要使用在火车采集器目录打开任务管理器,打开方法是:win7及以上版本支持,按住“shift”键,然后鼠标右击,在弹窗中选择“在此处打开命令窗口”。如下图所示: 并运行指令:CorFlags.exe LocoySpider.exe /32BIT+,然后重启火车采集器即可…

2023年9月4日 0条评论 80点热度 0人点赞 365crawadmin 阅读全文

我们用http://www.ccgp-shanxi.gov.cn/view.php?app=&type=&nav=100&page=1做测试,图中的名称,地区和状态是我要的值,我只要当前列表的数据 这是需要采集的源码信息 我们把上图中的源码复制到采集器里面 把对应的值都设置好 之后我们测试看看采集结果如何 我们再来看看列表页独立标签的用法,点开网址采集右下角的高级设置会有列表页独立标签,之后我们以标题为例,采集一下当前列表页的一个标题和列表页采集的原标题对比看看有什么区别 我们可以看到这个列…

2023年9月4日 0条评论 85点热度 0人点赞 365crawadmin 阅读全文

  下面介绍下火车采集器二级代理功能,我们按照实际在规则中设置的方式来介绍下如何在火车采集器中使用二级代理列表 1.获取IP 获取ip有三种方式: (1)手动添加:可以手动添加不同类型的IP,并添加用户名密码 (2)文本导入:通过文本导入,文本中IP一行一个保存,然后点击导入按钮保存即可 (3)商业代理IP导入 首先,我们要[点击启用]。然后使用商业代理网站提供的api网址来获取代理IP,一行一个的格式即可,比如如图,在浏览器中打开该网址(这类api是由代理IP网站提供的api接口),可以获取到两个一行一…

2023年9月4日 0条评论 70点热度 0人点赞 365crawadmin 阅读全文

起始网址目前支持四种导入方式,下面介绍数据库导入功能: 数据库导入支持mysql以及sqlserver两种数据库类型, 在使用此功能时需要填写数据库相应的连接信息,以及所需信息所在数据库、表以及列信息。 若所在列需要有where条件查询,如下图,where条件写在数据查询语句中,需要注意的是,不需要写where此关键词,直接写具体条件语句即可

2023年9月4日 0条评论 71点热度 0人点赞 365crawadmin 阅读全文
12