有的网页没有下一页按钮,但是有【加载更多】或【再显示20条】等按钮,通过不断点击这些按钮,可以实现翻页,加载出新数据。 像 搜狗微信首页 、微博评论 等页面都是这种情况。   针对这类网页,使用智能识别和自行配置的采集规则,都能实现翻页,具体设置方法如下:     1、智能识别实现【点击加载更多翻页】 示例网址如:https://weixin.sogou.com/     八爪鱼的智能识别,支持【加载更多内容】这种翻页的智能识别,如下图所示:   在 新手入门第8课:采集原理与流程执行逻辑 中,我们讲过,流程的执行…

2023年9月5日 0条评论 31点热度 0人点赞 365crawadmin 阅读全文

有的网页无下一页按钮,通过点击数字进行翻页,示例网址如:http://stock.cngold.org/news/ 使用智能识别和自行配置的采集规则,都能实现点击数字进行翻页,具体设置方法如下:     1、使用智能识别实现【数字翻页】 八爪鱼的智能识别,支持【数字翻页】的智能识别,如下图所示:     2、自己配置采集流程实现【数字翻页】 如果想了解背后的原理,我们可以来尝试自己配置这类网页的采集流程。   让八爪鱼不断点击数字进行翻页:当前页是第1页,点第2页;当前页是第2页,点第3页.......当前页是最后…

2023年9月5日 0条评论 20点热度 0人点赞 365crawadmin 阅读全文

有很多网站,通过点击【加载更多】或【再显示20条】等按钮进行翻页。像 搜狗微信首页 、微博评论 等页面都是这种情况。   针对这种网页,八爪鱼V8.4.0版本新增【边点击边采集】功能,可以边点击【加载更多按钮】,加载出新数据,边采集每次加载的新数据。   例:设置点击20次,则点击1次后,采集第1次点击后加载的数据,继续点击第2次,采集第2次点击后加载的数据.......直至点击20次,采集第20次点击后加载的数据。   使用智能识别和自行配置的采集规则,都能实现【边点击边采集】,具体设置方法如下。   一、使用智…

2023年9月5日 0条评论 34点热度 0人点赞 365crawadmin 阅读全文

1、添加特殊字段 在提取数据时,我们可以添加一些特殊字段: 【添加当前时间】:采集数据的时间,以电脑显示时间为准。 【添加当前网页信息】:页面网址、页面标题、页面描述、页面关键词、页面源码。 【添加固定字段】:某个固定字段,添加后默认出现在每一行数据前。例如:添加固定值【豆瓣】,表示数据源为豆瓣网。   如何添加? 点击页面右下方【数据预览】的【+】号按钮,按需添加字段。       2、字段上移下移 字段配置完成后,可以调整每个字段的顺序。 将鼠标移动到页面右下方【数据预览】的字段名上,选中  并按住拖动,即可调…

2023年9月5日 0条评论 36点热度 0人点赞 365crawadmin 阅读全文

我们在采集数据过程中,可能会出现字段提取不到、字段错位等情况。其中一个重要的原因就是对字段的定位不准。 可通过自定义定位元素的方式,修改字段定位XPath,对数据的位置进行正确的定位。 请注意,本教程需要一定的XPath知识和相对XPath知识,建议在学习XPath和相对XPath后,再看本教程。 XPath:https://www.bazhuayu.com/tutorial8/81xpath 相对XPath:https://www.bazhuayu.com/tutorial8/81xpath   提取数据一般分为…

2023年9月5日 0条评论 46点热度 0人点赞 365crawadmin 阅读全文

我们在提取一批相似网址时,页面中的字段一般是在同一位置,通过同一条定位XPath可以将其全部匹配到。 但是存在这样一种情况,同一字段在不同页面的位置略有不同。此时,我们可以尝试通过备用位置解决。例如,一个字段,在A页面和B页面的位置不同,那么可以用A页面字段的位置做规则提取字段,然后将B页面字段的位置设为备用位置。这样,AB两个页面的字段就都能被提取到。   示例网站: https://www.alibaba.com/product-detail/Clothes-Clothes-Dresses-Women-Fall…

2023年9月5日 0条评论 29点热度 0人点赞 365crawadmin 阅读全文

网页上的数据类型十分丰富:文本、图片、链接、源码等。在数据采集过程中,不同类型的数据类型,对应的抓取方式是不同的。本文将讲解常见的数据类型与其抓取方式。 示例网址:https://movie.douban.com/explore#!type=movie&tag=%E7%BB%8F%E5%85%B8&sort=recommend&page_limit=20&page_start=0   1、抓取文本:抓取显示在页面中的文本   操作:鼠标选中页面中的文本,在弹出的操作提示框中选择【采集…

2023年9月5日 0条评论 55点热度 0人点赞 365crawadmin 阅读全文

在做新闻类数据采集的时候,新闻的正文一般都有多个段落。 如果想将正文完全按照原文结构顺序采集下来,并将所有内容合并到一条数据中,可以用文章段落构建循环,然后设置【同一字段多次提取合并为一行】。 本文将以网易财经新闻采集为例详细说明。   示例网址:http://money.163.com/17/0706/01/COKG34EG002580S6.html   先按照需求提取数据。将每一段文本看做一个列表,按照 列表数据采集的方法,创建循环列表。如下图所示:       启动采集以后发现,得到很多条数据,一段对应一条数…

2023年9月5日 0条评论 49点热度 0人点赞 365crawadmin 阅读全文

数据采集下来之后,有时候格式不是我们想要的,或者只想从一段数据里提取特定数据。以上需求,可通过八爪鱼的【格式化数据】功能实现。 本教程将结合实例,具体讲解。   一、【格式化数据】设置的位置   示例网址:https://book.douban.com/subject/4913064/   【格式化数据】是对提取到的字段进行格式化操作,我们先按照采集需求,提取字段。本示例中,我们提取此网页中的图书标题、图书简介和图片网址。   鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理   …

2023年9月5日 0条评论 30点热度 0人点赞 365crawadmin 阅读全文

1、正则表达式简介 正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个【规则字符串】,这个【规则字符串】用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,该模式描述在搜索文本时要匹配的一个或多个字符串。   2、正则的用途 字符串匹配(字符匹配) 字符串查找 字符串替换   3、常用元字符及描述 \d 匹配一个数字字符。等价于[0-9] \D 匹配一个非数字字符。等价于[^0-9]…

2023年9月5日 0条评论 30点热度 0人点赞 365crawadmin 阅读全文
1676869707179