采集技术网

有的网页没有下一页按钮，但是有【加载更多】或【再显示20条】等按钮，通过不断点击这些按钮，可以实现翻页，加载出新数据。像搜狗微信首页、微博评论等页面都是这种情况。针对这类网页，使用智能识别和自行配置的采集规则，都能实现翻页，具体设置方法如下： 1、智能识别实现【点击加载更多翻页】示例网址如：https://weixin.sogou.com/ 八爪鱼的智能识别，支持【加载更多内容】这种翻页的智能识别，如下图所示：在新手入门第8课：采集原理与流程执行逻辑中，我们讲过，流程的执行…

2023年9月5日 0条评论 47点热度 0人点赞 365crawadmin 阅读全文

有的网页无下一页按钮，通过点击数字进行翻页，示例网址如：http://stock.cngold.org/news/ 使用智能识别和自行配置的采集规则，都能实现点击数字进行翻页，具体设置方法如下： 1、使用智能识别实现【数字翻页】八爪鱼的智能识别，支持【数字翻页】的智能识别，如下图所示： 2、自己配置采集流程实现【数字翻页】如果想了解背后的原理，我们可以来尝试自己配置这类网页的采集流程。让八爪鱼不断点击数字进行翻页：当前页是第1页，点第2页；当前页是第2页，点第3页.......当前页是最后…

2023年9月5日 0条评论 46点热度 0人点赞 365crawadmin 阅读全文

有很多网站，通过点击【加载更多】或【再显示20条】等按钮进行翻页。像搜狗微信首页、微博评论等页面都是这种情况。针对这种网页，八爪鱼V8.4.0版本新增【边点击边采集】功能，可以边点击【加载更多按钮】，加载出新数据，边采集每次加载的新数据。例：设置点击20次，则点击1次后，采集第1次点击后加载的数据，继续点击第2次，采集第2次点击后加载的数据.......直至点击20次，采集第20次点击后加载的数据。使用智能识别和自行配置的采集规则，都能实现【边点击边采集】，具体设置方法如下。一、使用智…

2023年9月5日 0条评论 60点热度 0人点赞 365crawadmin 阅读全文

1、添加特殊字段在提取数据时，我们可以添加一些特殊字段：【添加当前时间】：采集数据的时间，以电脑显示时间为准。【添加当前网页信息】：页面网址、页面标题、页面描述、页面关键词、页面源码。【添加固定字段】：某个固定字段，添加后默认出现在每一行数据前。例如：添加固定值【豆瓣】，表示数据源为豆瓣网。如何添加？点击页面右下方【数据预览】的【+】号按钮，按需添加字段。 2、字段上移下移字段配置完成后，可以调整每个字段的顺序。将鼠标移动到页面右下方【数据预览】的字段名上，选中并按住拖动，即可调…

2023年9月5日 0条评论 60点热度 0人点赞 365crawadmin 阅读全文

我们在采集数据过程中，可能会出现字段提取不到、字段错位等情况。其中一个重要的原因就是对字段的定位不准。可通过自定义定位元素的方式，修改字段定位XPath，对数据的位置进行正确的定位。请注意，本教程需要一定的XPath知识和相对XPath知识，建议在学习XPath和相对XPath后，再看本教程。 XPath：https://www.bazhuayu.com/tutorial8/81xpath 相对XPath：https://www.bazhuayu.com/tutorial8/81xpath 提取数据一般分为…

2023年9月5日 0条评论 66点热度 0人点赞 365crawadmin 阅读全文

我们在提取一批相似网址时，页面中的字段一般是在同一位置，通过同一条定位XPath可以将其全部匹配到。但是存在这样一种情况，同一字段在不同页面的位置略有不同。此时，我们可以尝试通过备用位置解决。例如，一个字段，在A页面和B页面的位置不同，那么可以用A页面字段的位置做规则提取字段，然后将B页面字段的位置设为备用位置。这样，AB两个页面的字段就都能被提取到。示例网站： https://www.alibaba.com/product-detail/Clothes-Clothes-Dresses-Women-Fall…

2023年9月5日 0条评论 46点热度 0人点赞 365crawadmin 阅读全文

网页上的数据类型十分丰富：文本、图片、链接、源码等。在数据采集过程中，不同类型的数据类型，对应的抓取方式是不同的。本文将讲解常见的数据类型与其抓取方式。示例网址：https://movie.douban.com/explore#!type=movie&tag=%E7%BB%8F%E5%85%B8&sort=recommend&page_limit=20&page_start=0 1、抓取文本：抓取显示在页面中的文本操作：鼠标选中页面中的文本，在弹出的操作提示框中选择【采集…

2023年9月5日 0条评论 76点热度 0人点赞 365crawadmin 阅读全文

在做新闻类数据采集的时候，新闻的正文一般都有多个段落。如果想将正文完全按照原文结构顺序采集下来，并将所有内容合并到一条数据中，可以用文章段落构建循环，然后设置【同一字段多次提取合并为一行】。本文将以网易财经新闻采集为例详细说明。示例网址：http://money.163.com/17/0706/01/COKG34EG002580S6.html 先按照需求提取数据。将每一段文本看做一个列表，按照列表数据采集的方法，创建循环列表。如下图所示：启动采集以后发现，得到很多条数据，一段对应一条数…

2023年9月5日 0条评论 77点热度 0人点赞 365crawadmin 阅读全文

数据采集下来之后，有时候格式不是我们想要的，或者只想从一段数据里提取特定数据。以上需求，可通过八爪鱼的【格式化数据】功能实现。本教程将结合实例，具体讲解。一、【格式化数据】设置的位置示例网址：https://book.douban.com/subject/4913064/ 【格式化数据】是对提取到的字段进行格式化操作，我们先按照采集需求，提取字段。本示例中，我们提取此网页中的图书标题、图书简介和图片网址。鼠标放到图片上，右键，选择【在新标签页中打开图片】可查看高清大图下文其他图片同理 …

2023年9月5日 0条评论 53点热度 0人点赞 365crawadmin 阅读全文

1、正则表达式简介正则表达式是对字符串（包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为“元字符”））操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个【规则字符串】，这个【规则字符串】用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式，该模式描述在搜索文本时要匹配的一个或多个字符串。 2、正则的用途字符串匹配（字符匹配）字符串查找字符串替换 3、常用元字符及描述 \d 匹配一个数字字符。等价于[0-9] \D 匹配一个非数字字符。等价于[^0-9]…

2023年9月5日 0条评论 63点热度 0人点赞 365crawadmin 阅读全文

1…67 686970 71…79

点击【加载更多】或【再显示20条】等按钮翻页

无【下一页】按钮，点击数字进行翻页

边点击加载更多边采集数据的方法

添加特殊字段

自定义定位元素方式

设置备用位置

自定义抓取方式

字段合并

字段格式化

正则表达式

近期文章

近期评论