网页上的数据类型十分丰富:文本、图片、链接、源码等。在数据采集过程中,不同类型的数据类型,对应的抓取方式是不同的。本文将讲解常见的数据类型与其抓取方式。 示例网址:https://movie.douban.com/explore#!type=movie&tag=%E7%BB%8F%E5%85%B8&sort=recommend&page_limit=20&page_start=0   1、抓取文本:抓取显示在页面中的文本   操作:鼠标选中页面中的文本,在弹出的操作提示框中选择【采集…

2023年9月5日 0条评论 54点热度 0人点赞 365crawadmin 阅读全文

我们在采集数据过程中,可能会出现字段提取不到、字段错位等情况。其中一个重要的原因就是对字段的定位不准。 可通过自定义定位元素的方式,修改字段定位XPath,对数据的位置进行正确的定位。 请注意,本教程需要一定的XPath知识和相对XPath知识,建议在学习XPath和相对XPath后,再看本教程。 XPath:https://www.bazhuayu.com/tutorial8/81xpath 相对XPath:https://www.bazhuayu.com/tutorial8/81xpath   提取数据一般分为…

2023年9月5日 0条评论 45点热度 0人点赞 365crawadmin 阅读全文

多网站站群式发布,指选择多个发布配置时,同一条数据不会重复发布至一个网站中: 发布条件:假设有3个发布配置A,B,C,一共有20条数据1,2,3,4,5....20需要发布 下面介绍下不同发布方式下,数据的发布情况 (1) 正序发布-多网站站群式发布: 按正序顺序一条条将20条数据分配给三个配置,分配方式为: A:1,4,7,10,13,16,19 B:2,5,8,11,14,17,20 C:3,6,9,12,15,18 (2)倒序发布-多网站站群式发布:按倒序顺序一条条将20条数据分配该三个配置,分配方式为: A…

2023年9月4日 0条评论 57点热度 0人点赞 365crawadmin 阅读全文

数据提取方式支持调用其他标签值可以让采集过程更加灵活,在提取中点击标签符号即可调用其他标签的值。下面介绍下具体使用方法: 我们以网址:https://detail.tmall.com/item.htm?id=644685533017,为例,目的为提取sku对应的颜色名称,以一个颜色为示例: 目标网站获取数据部分源码: (1)先获取该颜色的sku值 (2)点击标签选择需要调用的标签即可 下面为运行结果: 注意:调用标签在前后截取以及正则提取中皆可使用,使用方法相同。

2023年9月4日 0条评论 55点热度 0人点赞 365crawadmin 阅读全文