XPath对于八爪鱼数据采集十分重要。绝大多数的数据采集问题,都可以通过写一条正确的XPath解决。 本课将详细讲解XPath相关的问题。    一、HTML 与 XPath   我们日常浏览的网页本质上都是一个个HTML文档。打开网页后,鼠标右键打开菜单,选择【查看网页源代码】,就能看到该网站的HTML文档。网页上的数据,在其HTML文档中都有一个对应位置。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理   如何在HTML文档中找到想要的数据?XPath是最常用的语言…

2023年9月5日 0条评论 26点热度 0人点赞 365crawadmin 阅读全文

在学习本教程之前,您需要具备八爪鱼基础操作和XPath相关知识,如果还未掌握,请先学习以下课程。 自定义模式入门:https://www.bazhuayu.com/tutorial8/xsrm/81zdyrm XPath 系统学习与实例:https://www.bazhuayu.com/tutorial8/81xpath   一、相对XPath 相对Xpath,即相对于循环框的Xpath,有两个典型特征:跟随循环联动;与循环框的XPath合并成一条完整的定位XPath。 有两种常见应用场景:提取循环内的数据;提取循…

2023年9月5日 0条评论 38点热度 0人点赞 365crawadmin 阅读全文

我们通过创建【循环列表】去采集多个列表或详情页的数据。创建【循环列表】的方式在 新手入门系列课程 中有详细讲过。     一般情况下,通过以上方法创建的【循环列表】不会出错,能够精准采集到全部数据。 但有时候我们点击了列表页某一项数据之后,点击“选中全部”,但是循环定位到的数据并没有包含咱们要的所有数据项,这个时候可以通过手动修改xpath,让循环定位到咱们所有需要的数据, 这就是我们本节课所要讲的内容。   实例网址:https://www.haodf.com/hospital/list.html   基础操作:…

2023年9月5日 0条评论 23点热度 0人点赞 365crawadmin 阅读全文

我们通过创建【循环列表】去采集多个列表或详情页的数据。创建【循环列表】的方式在 新手入门系列课程 中有详细讲过。     一般情况下,通过以上方法创建的【循环列表】不会出错,能够精准采集到全部数据。但有时候也会遇到一些问题:比如列表中有的部分不是我们想要的,需要进行丢弃。   这时候,可以手动修改XPath去定位列表丢弃不需要的部分。也可以用分支判断丢弃。     以下通过实例进行说明。   实例网址:https://weibo.com/2803301701?refer_flag=1001030103_     一…

2023年9月5日 0条评论 28点热度 0人点赞 365crawadmin 阅读全文

我们通过创建【循环列表】去采集多个列表或详情页的数据。创建【循环列表】的方式在 新手入门系列课程 中有详细讲过。   一般情况下,通过以上方法创建的【循环列表】不会出错,能够精准采集到我们想要的全部数据。但有时候也会遇到一些问题:比如滚动后加载出100个列表,为什么只采集到20个?有一些列表并不是我们需要的,如何将其排除掉? 页面本来有30条列表,为什么却只能采集到10条?   这时候,就需要手动修改XPath去精准定位列表。   以下通过实例进行说明。   实例网址:https://www.made-in-chi…

2023年9月5日 0条评论 30点热度 0人点赞 365crawadmin 阅读全文

当有类似下列应用场景: 将甲同学的姓名插入useinfo表,另甲同学有多张图片,需插入pic表,并且要求两表相关联,图片是一张图片插入一行。 那这就要求,pic表可以获得useinfo表中甲同学的自增ID。这种复杂的插入过程,则需要存储过程了。 以上述情况,可使用如下存储过程 BEGINDECLARE po INT DEFAULT 0;DECLARE oid INT DEFAULT 0;DECLARE rid VARCHAR(200) DEFAULT "";  DECLARE rid_…

2023年9月4日 0条评论 55点热度 0人点赞 365crawadmin 阅读全文