此插件集成平台为:佐糖去水印官网 (若有其他更常用平台,可以联系客服推荐评估~) 使用方法为:在火车采集器的根目录下,有DelWatermark.txt 文件,若没有可以自己手动新建 文本中内容为 wxz0XXXXXXXXoue2x#[{"x":0,"y":0,"width":380,"height":200}] 下面介绍下文档中各项内容涵义: ①# 号…
此插件集成平台为:佐糖去水印官网 (若有其他更常用平台,可以联系客服推荐评估~) 使用方法为:在火车采集器的根目录下,有DelWatermark.txt 文件,若没有可以自己手动新建 文本中内容为 wxz0XXXXXXXXoue2x#[{"x":0,"y":0,"width":380,"height":200}] 下面介绍下文档中各项内容涵义: ①# 号…
火车采集器数据获取新增支持CSS selector,很多网页的css 的属性唯一,此功能更利于批量从网页中提取数据。 如要系统性学习css提取的知识,可以先看下教程:https://www.w3school.com.cn/cssref/css_selectors.asp。 在火车采集器集成了css提取功能,直接将css路径填写在界面中即可使用。Selector中填写css路径,节点属性选择需要采集的属性。 比如: 注意:只有网页源码中有的元素,才能使用css获取,若是源码中没有而是浏览器渲染过后才展示的…
最新版的采集器中新增加了对于http二级代理的API请求功能,下面介绍一下这个功能如何添加。 首先您需要找到一家代理IP,该代理需提供通过API获取IP的功能,下面来设置http功能 1.打开http二级代理服务器,点击批量导入。 2.点击添加按钮。直接将生成的API地址放入火车采集器地址栏处(图中画圆圈处)注意,生成的API必须是json格式,若是提供的默认正则格式不能正确获取到代理,那么需要您根据获取的Ip格式重新编写匹配正则表达式 3.勾选开启定时刷新,设置好时间后采集器会定时请求API来获取最新的IP地址。…
示例网址:58游泳卡第一页:http://bj.58.com/youyongka/ 采集其中电话号码步骤为: (1)下载相应版本的58电话号码插件,下面以V9为示例:下载地址为:http://faq.locoy.com/q-1217.html。下载后按教程放在采集器下 (2)在采集器中建立一个标签 名为 “手机号码” ,在网址源代码中找到验证码图片的地址,并在采集器中写前后字符,如下图 (3)测试运行 (4)正式运行示例:
软件启动报错如下图,下载下列文件解压后将LocoySpider.exe.config直接放在火车采集器的安装根目录下,然后再次启动软件 下载文件:点击下载链接
区间变化的变化原理为:地址中的两个参数以固定的间隔进行增长,并且相邻两组值的结束值与起始值间隔为1,以这种形式变化增长的地址格式可以使用区间变化来处理。 比如以https://www.powerchina.cn/col/col7440/index.html?uid=46098&pageNum=1,网址为例,我们使用fiddler抓包网址变化如下: 第一页:https://www.powerchina.cn/module/web/jpage/dataproxy.jsp?startrecord=1…