“火车伪原创插件.dll” 文件放到Plugins目录下。 “火车伪原创插件配置工具.exe” 文件放在采集器根目录下,和LocoySpider.exe放在同一目录。 通过使用配置工具来 填写账号、密码等信息即可。 新建任务,创建"标题"和"内容"标签, 然后在其他设置中->插件->采集结果处理插件,选择"火车伪原创插件.dll"即可。 下载链接:点击打开链接 注意: (1)若是运行插件时出现如下…
“火车伪原创插件.dll” 文件放到Plugins目录下。 “火车伪原创插件配置工具.exe” 文件放在采集器根目录下,和LocoySpider.exe放在同一目录。 通过使用配置工具来 填写账号、密码等信息即可。 新建任务,创建"标题"和"内容"标签, 然后在其他设置中->插件->采集结果处理插件,选择"火车伪原创插件.dll"即可。 下载链接:点击打开链接 注意: (1)若是运行插件时出现如下…
记录自增ID:同一个内容页中,多个标签设置记录自增ID,那么多个标签都是从1开始自增,再次测试运行又会重新开始从1自增,更换个内容页测试运行,也是从1开始自增. 自增ID:设置自增ID是采集器启动后运行,开始一个自增ID,从1开始自增,之后就是自增。重启采集器后,又会重新开始自增ID,从1开始自增。 举例说明:自增记录ID:缩略图和内容两个标签都有图片下载,都设置了记录自增ID. 比如内容页网址https://zhishi.fang.com/jiaju/qg_680673.html 更换一个内容页网址,记录自增ID…
当有类似下列应用场景: 将甲同学的姓名插入useinfo表,另甲同学有多张图片,需插入pic表,并且要求两表相关联,图片是一张图片插入一行。 那这就要求,pic表可以获得useinfo表中甲同学的自增ID。这种复杂的插入过程,则需要存储过程了。 以上述情况,可使用如下存储过程 BEGINDECLARE po INT DEFAULT 0;DECLARE oid INT DEFAULT 0;DECLARE rid VARCHAR(200) DEFAULT ""; DECLARE rid_…
语法测试时提示以上错误提示,是因为程序集没有引用,下面介绍下解决方法: 1.linq程序集 在工具→点击引用,选择system.Linq.dll 2.regularExpressions程序集引用 如上图,观察下程序集的路径,并在浏览选项框中找到该路径,并选择system.dll 然后重新语法测试一下,可以看到一切运行正常。如果之后再显示有程序集缺少,那可以按照system.dll的添加方式来引用下程序集
下面介绍下火车采集器二级代理功能,我们按照实际在规则中设置的方式来介绍下如何在火车采集器中使用二级代理列表 1.获取IP 获取ip有三种方式: (1)手动添加:可以手动添加不同类型的IP,并添加用户名密码 (2)文本导入:通过文本导入,文本中IP一行一个保存,然后点击导入按钮保存即可 (3)商业代理IP导入 首先,我们要[点击启用]。然后使用商业代理网站提供的api网址来获取代理IP,一行一个的格式即可,比如如图,在浏览器中打开该网址(这类api是由代理IP网站提供的api接口),可以获取到两个一行一…
对于会更新数据的网站,如果可以通过一个字段判断该网页数据是否更新,则可以编写存储过程来实现,数据库中已有数据的更新,然后新增数据直接插入数据库的功能: 存储过程语句如下: CREATE DEFINER=`root`@`%` PROCEDURE `yhaves`(IN `gaame` VARCHAR(50), IN `plorm` VARCHAR(50), IN `serrea` VARCHAR(200)) LANGUAGE SQL  …
sqlite中设置自增ID后,自增ID已经记录,就算清空已经采集的内容,再次采集时,自增ID也是从上一次的ID后递增,想要重置自增ID从零开始,需要按以下步骤设置: (1)首先清空采集所有内容 (2) 在本地编辑数据库的执行sql语句中运行语句即可: UPDATE sqlite_sequence SET seq =0 WHERE name ='Content' 注意:(1)本方法只针对sqlite (2)运行该语句前,需要先清空采集器中已采集数据
起始网址目前支持四种导入方式,下面介绍数据库导入功能: 数据库导入支持mysql以及sqlserver两种数据库类型, 在使用此功能时需要填写数据库相应的连接信息,以及所需信息所在数据库、表以及列信息。 若所在列需要有where条件查询,如下图,where条件写在数据查询语句中,需要注意的是,不需要写where此关键词,直接写具体条件语句即可