自动分析表格中列名以及循环采集列中数值,下面以:http://www.bjtzh.gov.cn/bjtz/home/jrcj/index.shtml,网站为例演示使用方法: 1.首先在请求源码中找到表格的前后字符,注意这里的字符要包含整个表格,包括列名列值,不要缺少内容 2.在火车采集器其他设置中设置范围,并点击测试自动生成标签。然后就会分析代码生成对应标签,任务保存即可。

2023年9月4日 0条评论 41点热度 0人点赞 365crawadmin 阅读全文

  区间变化的变化原理为:地址中的两个参数以固定的间隔进行增长,并且相邻两组值的结束值与起始值间隔为1,以这种形式变化增长的地址格式可以使用区间变化来处理。 比如以https://www.powerchina.cn/col/col7440/index.html?uid=46098&pageNum=1,网址为例,我们使用fiddler抓包网址变化如下: 第一页:https://www.powerchina.cn/module/web/jpage/dataproxy.jsp?startrecord=1…

2023年9月4日 0条评论 51点热度 0人点赞 365crawadmin 阅读全文

火车采集器数据获取新增支持CSS selector,很多网页的css 的属性唯一,此功能更利于批量从网页中提取数据。  如要系统性学习css提取的知识,可以先看下教程:https://www.w3school.com.cn/cssref/css_selectors.asp。 在火车采集器集成了css提取功能,直接将css路径填写在界面中即可使用。Selector中填写css路径,节点属性选择需要采集的属性。 比如: 注意:只有网页源码中有的元素,才能使用css获取,若是源码中没有而是浏览器渲染过后才展示的…

2023年9月4日 0条评论 57点热度 0人点赞 365crawadmin 阅读全文

数据提取方式支持调用其他标签值可以让采集过程更加灵活,在提取中点击标签符号即可调用其他标签的值。下面介绍下具体使用方法: 我们以网址:https://detail.tmall.com/item.htm?id=644685533017,为例,目的为提取sku对应的颜色名称,以一个颜色为示例: 目标网站获取数据部分源码: (1)先获取该颜色的sku值 (2)点击标签选择需要调用的标签即可 下面为运行结果: 注意:调用标签在前后截取以及正则提取中皆可使用,使用方法相同。

2023年9月4日 0条评论 55点热度 0人点赞 365crawadmin 阅读全文

      关联区域功能,可以先截取网页中指定区域内容,然后将该区域作为数据来源再进行采集处理。       关联区域功能有利于网页结构重复或者复杂的网页形式的分析以及采集。       下面介绍下关联区域功能的用法:         以网址:http://www.locoy.com/downloa…

2023年9月4日 0条评论 63点热度 0人点赞 365crawadmin 阅读全文

获取当前采集页的网址,可以按下面设置, 正则提取规则为: ^(?<content>[\s\S]*?)$ 

2023年9月4日 0条评论 58点热度 0人点赞 365crawadmin 阅读全文

COS上传功能为将火车采集器下载的附件、图片等文件传送到腾讯云存储空间中,便于使用腾讯云的客户进行数据的管理。    下面介绍下具体用法以及选项含义: (1)  COS 配置 SecretId  : 对应cos的SecretId,上传的授权信息 SecretKey : 对应cos的SecretKey,上传的授权信息 文件存放区域 :根据实际存放区域填写,格式形如 ap-shanghai 存储桶 :存储的空间名称 位置标识符 :存储的文件夹名称,若不存在该文件夹将自动创建 (2…

2023年9月4日 0条评论 56点热度 0人点赞 365crawadmin 阅读全文

FTP/SFTP在火车采集器中设置其实很简单,但是网站种可能有很多不同的要求,下面详细介绍下设置方式以及可能出现的问题的处理方案,因FTP与SFTP在火车采集器中设置或者原理都是相同的,所以接下来的介绍不再区分称呼,统一简称为FTP: 一.图片的上传

2023年9月4日 0条评论 36点热度 0人点赞 365crawadmin 阅读全文

   OSS上传功能为将火车采集器下载的附件、图片等文件传送到阿里云对象存储OSS中,便于使用阿里云存储的客户进行数据的管理。    下面介绍下具体用法以及选项含义: (1)填写服务器信息中所需的oss配置信息。        oss服务器地址:根据自己服务器的地域节点填写,需要注意这里的地址是地域节点,而不是Bucket节点地址,不要填写错误哦。      &nbs…

2023年9月4日 0条评论 60点热度 0人点赞 365crawadmin 阅读全文

我们提供的免登陆接口是可以让织梦自动提取缩略图的,因此规则中不需要勾选下载图片。我们只需要注意发布模块中的如下参数: autolitpic=1   是否提取第一个图片为缩略图,1为是,0为否,启用本项则picname应留空;picname      缩略图片路径及文件名ddisremote=0   是否远程获取缩略图片,1为是,0为否,启用本项必须使PICNAME的值为有效图片网址 如果要织梦自动提取缩略图的话,发布模块中对应参数的值设置如下:       …

2023年9月4日 0条评论 66点热度 0人点赞 365crawadmin 阅读全文
1394041424346