此功能是针对用户需求为:采集内容包含某个字符即将该字段的所有内容都替换为某个固定的内容。 使用场景例如:我们从对方网站采集城市名称,然后城市名称示例:浙江省杭州市,我们需要将这个内容替换为杭州,这时就可以使用自动分类功能。 下面以百度为例介绍下用法: 如上图,我们想要将包含百度的标题 内容更替换为 常用搜索网站,则写成如下格式: 运行结果为: 如上就是自动分类的使用方法。 其中需要注意的是:1.一行一个分类,可以写多个分类。若是一个关键词符合多个分类,则优先替换上面的分类,按…
此功能是针对用户需求为:采集内容包含某个字符即将该字段的所有内容都替换为某个固定的内容。 使用场景例如:我们从对方网站采集城市名称,然后城市名称示例:浙江省杭州市,我们需要将这个内容替换为杭州,这时就可以使用自动分类功能。 下面以百度为例介绍下用法: 如上图,我们想要将包含百度的标题 内容更替换为 常用搜索网站,则写成如下格式: 运行结果为: 如上就是自动分类的使用方法。 其中需要注意的是:1.一行一个分类,可以写多个分类。若是一个关键词符合多个分类,则优先替换上面的分类,按…
火车采集器可以抓取http以及https请求中的内容,因此只要手机APP是这两种请求类型,那么其中的内容理论上就是可以抓取的。下面介绍下怎么抓取手机APP的请求。下面以苹果手机中的京东APP为例: (1)查看fiddler的端口号为多少,例下图: (2)查看本地局域网的固定IP为多少,例下图: (3)在手机中设置代理服务器,将端口号以及IP写入,例下图: 如上图设置好后,就可以将fiddler保持Capturing的状态,然后操作京东的APP,就可以看到其中的请求了,如下图: 然后你就可以在采集器中做规…
使用管理员权限启动cmd,运行命令 netsh winsock reset ,显示重置成功后,再重启下电脑。 win10 左下角徽标上右键可以直接选择命令提示符(管理员)打开
数据提取方式支持调用其他标签值可以让采集过程更加灵活,在提取中点击标签符号即可调用其他标签的值。下面介绍下具体使用方法: 我们以网址:https://detail.tmall.com/item.htm?id=644685533017,为例,目的为提取sku对应的颜色名称,以一个颜色为示例: 目标网站获取数据部分源码: (1)先获取该颜色的sku值 (2)点击标签选择需要调用的标签即可 下面为运行结果: 注意:调用标签在前后截取以及正则提取中皆可使用,使用方法相同。
登录时提示如下: 那么你需要将plugins下的插件使用最新版本的插件覆盖下:下载附件,根据不同的版本选择插件:插件点此下载
火车浏览器导出的cookie是所有打开页面的cookie,而火车采集器在调用该cookie时,若有多个相同的key ,则以最上面的key为准,如下图: 则这可能会导致火车采集器调用未登录的key ,导致无法采集登录后的内容。想要解决这种问题,有一下两种方式: 1.登录前,调用Cookie操作,清空火车浏览器中cookie 2.若清空cookie后,还是有相同的key ,则需先导出cookie至文本中,然后使用文件操作读取文本中cookie至list 变量,使用变量清理功能清除list变量中无效的key 。然后将li…
此插件集成平台为:佐糖去水印官网 (若有其他更常用平台,可以联系客服推荐评估~) 使用方法为:在火车采集器的根目录下,有DelWatermark.txt 文件,若没有可以自己手动新建 文本中内容为 wxz0XXXXXXXXoue2x#[{"x":0,"y":0,"width":380,"height":200}] 下面介绍下文档中各项内容涵义: ①# 号…
火车采集器数据获取新增支持CSS selector,很多网页的css 的属性唯一,此功能更利于批量从网页中提取数据。 如要系统性学习css提取的知识,可以先看下教程:https://www.w3school.com.cn/cssref/css_selectors.asp。 在火车采集器集成了css提取功能,直接将css路径填写在界面中即可使用。Selector中填写css路径,节点属性选择需要采集的属性。 比如: 注意:只有网页源码中有的元素,才能使用css获取,若是源码中没有而是浏览器渲染过后才展示的…
最新版的采集器中新增加了对于http二级代理的API请求功能,下面介绍一下这个功能如何添加。 首先您需要找到一家代理IP,该代理需提供通过API获取IP的功能,下面来设置http功能 1.打开http二级代理服务器,点击批量导入。 2.点击添加按钮。直接将生成的API地址放入火车采集器地址栏处(图中画圆圈处)注意,生成的API必须是json格式,若是提供的默认正则格式不能正确获取到代理,那么需要您根据获取的Ip格式重新编写匹配正则表达式 3.勾选开启定时刷新,设置好时间后采集器会定时请求API来获取最新的IP地址。…
示例网址:58游泳卡第一页:http://bj.58.com/youyongka/ 采集其中电话号码步骤为: (1)下载相应版本的58电话号码插件,下面以V9为示例:下载地址为:http://faq.locoy.com/q-1217.html。下载后按教程放在采集器下 (2)在采集器中建立一个标签 名为 “手机号码” ,在网址源代码中找到验证码图片的地址,并在采集器中写前后字符,如下图 (3)测试运行 (4)正式运行示例: