采集场景 在孔夫子旧书网搜索页面:http://search.kongfz.com/product_result/,输入图书的关键词(含ISBN)搜索,搜索后得到图书列表,然后从列表点击图书链接进入详情页,采集详情页数据。 ISBN是专门为识别图书等文献而设计的国际编号,如果使用的是ISBN搜索,则搜索结果都是关于某本特定书籍的。   采集字段 作者、书名、售价、定价、库存、品相、出版时间等字段。     点击查看高清大图,下文其他图片同理     采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多…

2023年9月5日 0条评论 56点热度 0人点赞 365crawadmin 阅读全文

采集场景 打开东方财富网【定向增发股】类目的网页:http://data.eastmoney.com/other/dxzf.html ,采集页面上显示的股票信息。    采集字段 股票简称、基金代码、发行方式、发行总数、发行价格、最新价、发行日期、增发上市日期、锁定期、股票代码详情链接、当前采集时间等字段。   点击查看高清大图,下文其他图片同理     采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:     采集步骤   步骤一、打开网页 步骤二、创建【循环-提取…

2023年9月5日 0条评论 16点热度 0人点赞 365crawadmin 阅读全文

采集场景 在豆瓣电影首页(https://movie.douban.com/)输入关键词搜索,得到相关电影列表页。实例网址:https://search.douban.com/movie/subject_search?search_text=%E6%88%98%E7%8B%BC ,是输入关键词【战狼】后得到的电影列表页。然后点击电影链接,进入电影详情页,采集详情页数据。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理    采集字段 电影、导演、编剧、主演、制片国家/地区…

2023年9月5日 0条评论 61点热度 0人点赞 365crawadmin 阅读全文

采集场景 在豆瓣读书短评页面 https://book.douban.com/subject/4011670/comments/ , 采集图书评论信息。   采集字段 作品名、有用数、评论时间、评论内容、星级、当前时间、页面网址     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理     采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:      教程说明 本篇制作时间:2022/5/27    八爪鱼版本:V8.5.4 如果因…

2023年9月5日 0条评论 38点热度 0人点赞 365crawadmin 阅读全文

在 客户端界面介绍 里,我们简单讲了数据采集的2种模式:【使用模板采集数据】和【自定义配置采集数据】。【使用模板采集数据】之前已经讲过,点击学习   【自定义配置采集数据】稍微复杂一点,我们将用1个系列的8节课来学习。在这8节课中,我们将介绍使用八爪鱼自行配置采集流程,进行网页数据采集的基础知识。学完这8节课,能够轻松采集到90%的网页数据。   第1课:自定义配置采集数据基本介绍(含智能识别) 本课 第2课:采集单个数据 第3课:采集列表数据 第4课:采集表格数据 第5课:需依次点击多个链接进入详情,采集每个详情…

2023年9月5日 0条评论 38点热度 0人点赞 365crawadmin 阅读全文

采集场景 今日头条上有很多头条号,实例网址:https://www.toutiao.com/c/user/52255723016/#mid=52255723016,是头条号【北青网】的主页。主页上展示其发布的文章列表。点击文章标题链接,可进入文章详情页,查看文章正文(文字+图片)。   采集字段 文章标题、文章链接、发布时间、阅读数、评论数等字段。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理    采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格…

2023年9月5日 0条评论 26点热度 0人点赞 365crawadmin 阅读全文

  从本课开始,我们将自己动手,配置一个采集规则。从最简单的单个数据采集开始。   现在有一个京东商品详情页的网页:https://item.jd.com/100007073871.html。网页上有很多字段:文本(标题、价格等)、图片(商品图片)、链接(详情的超链接)     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理   我们想将上述网页上非结构化的文本、图片、超链接等字段采集下来,保存为excel等结构化的数据,如下图所示:     在八爪鱼中如何操作?以下为具体步骤。…

2023年9月5日 0条评论 27点热度 0人点赞 365crawadmin 阅读全文

采集场景 今日头条是重要的新闻资讯网站,首页(https://www.toutiao.com/)默认展示最新的新闻列表,点击新闻标题,可进入新闻详情页,查看每条新闻的详情页数据。   采集字段 标题、来源、时间、正文、图片url等字段。     鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理    采集结果 采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:     教程说明 本篇更新时间:2022/6/18   八爪鱼版本:V8.5.2 如果…

2023年9月5日 0条评论 31点热度 0人点赞 365crawadmin 阅读全文

在第 2 课:采集数据中,学习了如何从网页抓取我们的文本、图片、超链接,对八爪鱼【自定义配置】任务采集数据的过程进行了展示。本课将继续深入学习采集有一些列表中的数据。   列表是最常见的网页样式。示例:京东商品列表,58个同城房书源列表,豆瓣列表。通过简单配置,八爪鱼可以自动采集全部列表中的数据。   现在有一个豆瓣图书列表的网页:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4。网页上有很多结构相同的图书列表,每个图书列表列表的领域:图书标题、出版信息、评分、评价人数、…

2023年9月5日 0条评论 41点热度 0人点赞 365crawadmin 阅读全文

在 第3课中,我们学会了如何采集多个列表中的数据,相信大家都已学会创建【循环-提取数据】。本节课将学习一种特殊格式的列表数据——表格数据采集。   表格是一种很常见的网页样式,例:球探网的赛事比分表,天天基金网的基金排名表,东方财富网的股票信息表,中国证券业协会的年报披露表格等等。   表格作为列表数据的特殊形式,我们可以将表格的每一行看作为列表的每一个数据的大区块范围, 表格每一行的全部单元格字段,相当于列表每个数据区块内的多个子字段。那么上节课讲的【循环-提取数据】创建方法在本课也能用。   现在有一个新浪财经…

2023年9月5日 0条评论 28点热度 0人点赞 365crawadmin 阅读全文
1626364656679