我们用http://www.ccgp-shanxi.gov.cn/view.php?app=&type=&nav=100&page=1做测试,图中的名称,地区和状态是我要的值,我只要当前列表的数据 这是需要采集的源码信息 我们把上图中的源码复制到采集器里面 把对应的值都设置好 之后我们测试看看采集结果如何 我们再来看看列表页独立标签的用法,点开网址采集右下角的高级设置会有列表页独立标签,之后我们以标题为例,采集一下当前列表页的一个标题和列表页采集的原标题对比看看有什么区别 我们可以看到这个列…

2023年9月4日 0条评论 62点热度 0人点赞 365crawadmin 阅读全文

 发布模块发布错误的时候可能有很多的原因。下面列举几种情况: 1.发布时提示发布成功未知,这个有几种可能情况, ①发布模块中未写成功标识码:只有写了成功标识,程序才能根据该标识判断你是上传成功了。成功标识码是从你发布后返回的源代码中获取的,也就是你在的网站手动发布一篇文章,然后看下提示成功的页面的源代码中有什么字符,以该字符作为成功标识码。一般都是成功什么什么,不过还是要根据你网站实际返回源代码来判断 ②你已经写好了成功标识码,但是还是提示发布成功未知,这个可能是因为你的网站响应较慢,发布成功的源码返回较…

2023年9月4日 0条评论 38点热度 0人点赞 365crawadmin 阅读全文

目前大多数浏览器都会自带开发者工具(一般按f12即可出现),网页的cookie以及网址打开后加载的各类信息都是可以看到的。 下面以谷歌浏览器为例: 1.在谷歌浏览器里打开http://www.sd-portygzc.com/jyxx/project.html网址 这个网址点击分页时,会发现网址是不变,这个就是典型的需要抓包真实链接的post网址。 2.从右上角自定义控制里打开开发者工具或者直接按f12运行, 3.开启工具后,点击翻页后,工具里出现了个链接,这个就是网址的翻页的请求信息 4.有些网址翻页请求的信息是不…

2023年9月4日 0条评论 52点热度 0人点赞 365crawadmin 阅读全文

“火车伪原创插件.dll” 文件放到Plugins目录下。 “火车伪原创插件配置工具.exe” 文件放在采集器根目录下,和LocoySpider.exe放在同一目录。 通过使用配置工具来 填写账号、密码等信息即可。   新建任务,创建"标题"和"内容"标签,   然后在其他设置中->插件->采集结果处理插件,选择"火车伪原创插件.dll"即可。 下载链接:点击打开链接 注意: (1)若是运行插件时出现如下…

2023年9月4日 0条评论 52点热度 0人点赞 365crawadmin 阅读全文

记录自增ID:同一个内容页中,多个标签设置记录自增ID,那么多个标签都是从1开始自增,再次测试运行又会重新开始从1自增,更换个内容页测试运行,也是从1开始自增. 自增ID:设置自增ID是采集器启动后运行,开始一个自增ID,从1开始自增,之后就是自增。重启采集器后,又会重新开始自增ID,从1开始自增。 举例说明:自增记录ID:缩略图和内容两个标签都有图片下载,都设置了记录自增ID. 比如内容页网址https://zhishi.fang.com/jiaju/qg_680673.html 更换一个内容页网址,记录自增ID…

2023年9月4日 0条评论 45点热度 0人点赞 365crawadmin 阅读全文

当有类似下列应用场景: 将甲同学的姓名插入useinfo表,另甲同学有多张图片,需插入pic表,并且要求两表相关联,图片是一张图片插入一行。 那这就要求,pic表可以获得useinfo表中甲同学的自增ID。这种复杂的插入过程,则需要存储过程了。 以上述情况,可使用如下存储过程 BEGINDECLARE po INT DEFAULT 0;DECLARE oid INT DEFAULT 0;DECLARE rid VARCHAR(200) DEFAULT "";  DECLARE rid_…

2023年9月4日 0条评论 54点热度 0人点赞 365crawadmin 阅读全文

将有效的User-Agent放在文本中,然后在火车采集器中调用该文本,即可实现随机调用UA的功能,达到采集时随机更换UA的目的

2023年9月4日 0条评论 57点热度 0人点赞 365crawadmin 阅读全文

   语法测试时提示以上错误提示,是因为程序集没有引用,下面介绍下解决方法: 1.linq程序集 在工具→点击引用,选择system.Linq.dll 2.regularExpressions程序集引用 如上图,观察下程序集的路径,并在浏览选项框中找到该路径,并选择system.dll 然后重新语法测试一下,可以看到一切运行正常。如果之后再显示有程序集缺少,那可以按照system.dll的添加方式来引用下程序集

2023年9月4日 0条评论 34点热度 0人点赞 365crawadmin 阅读全文

  下面介绍下火车采集器二级代理功能,我们按照实际在规则中设置的方式来介绍下如何在火车采集器中使用二级代理列表 1.获取IP 获取ip有三种方式: (1)手动添加:可以手动添加不同类型的IP,并添加用户名密码 (2)文本导入:通过文本导入,文本中IP一行一个保存,然后点击导入按钮保存即可 (3)商业代理IP导入 首先,我们要[点击启用]。然后使用商业代理网站提供的api网址来获取代理IP,一行一个的格式即可,比如如图,在浏览器中打开该网址(这类api是由代理IP网站提供的api接口),可以获取到两个一行一…

2023年9月4日 0条评论 43点热度 0人点赞 365crawadmin 阅读全文

  对于会更新数据的网站,如果可以通过一个字段判断该网页数据是否更新,则可以编写存储过程来实现,数据库中已有数据的更新,然后新增数据直接插入数据库的功能: 存储过程语句如下: CREATE DEFINER=`root`@`%` PROCEDURE `yhaves`(IN `gaame` VARCHAR(50), IN `plorm` VARCHAR(50), IN `serrea` VARCHAR(200))    LANGUAGE SQL    …

2023年9月4日 0条评论 23点热度 0人点赞 365crawadmin 阅读全文
123456