如果大家在发布到数据库时遇到一些问题,请参考这个教程进行问题排查:发布到数据库常见问题 作为一款真免费的数据采集软件,我们免费提供多种导出方式,如果小伙伴们需要将采集到的数据发布到数据库MySQL,可以按照以下操作导出。 步骤一: 数据提取完毕后在导出数据界面选择导出到MySQL数据库选项。 步骤二: 选择本地数据库,可以创建新配置,也可以使用之前配置好的本地数据库。 创建新配置时,我们需要输入本地数据库地址、端口、用户名、密码。 如果地址或者密码什么的输入的不对,会出现Error的提示,此时需要检查是否正确输入地…

2023年9月5日 0条评论 32点热度 0人点赞 365crawadmin 阅读全文

数据去重功能是指在任务采集过程中,将当前采集到的数据和该任务中已保存的所有数据进行对比,如果数据重复,则按照设置条件进行处理。 在编辑任务界面,点击右下角“开始采集”按钮,在弹出的设置框中,点击“数据去重”选项可以切换到数据去重设置界面。 1、去重条件 1)所有字段都重复 勾选“所有字段都重复”这个去重条件,意味着两行数据必须完全相同,软件才会执行去重。只要两行数据中有任意一个字段不相同,该数据都不会被判定为重复数据。 需要注意的是,很多网页内容中存在时间或阅读数这一类会变化的内容,包含此类内容时,数据往往看上去大…

2023年9月5日 0条评论 34点热度 0人点赞 365crawadmin 阅读全文

在数据采集的时候,经常会需要倒序采集(从最后一页开始往前采集数据)的情况。本文将简单说明如何使用后羿采集器的智能模式进行网页数据的倒序采集。 情况一:列表页翻页后,链接改变,存在最后一页链接 处理方式一:将列表页最后一页链接作为采集链接 当我们能够直接拿到网站列表页最后一页的链接时,可以通过直接复制链接的形式,用最后一页的链接来创建采集任务。 1. 在浏览器里点击到最后一页,复制最后一页的链接。

2023年9月5日 0条评论 56点热度 0人点赞 365crawadmin 阅读全文

八爪鱼提供JSON采集功能,通过打开JSON网址,配置流程,能够进行JSON采集。   一、JSON是什么 JSON是一种轻量的数据交换格式,由于一些优秀的特性比如比 XML 更小、更快,更易解析和阅读,并有效地提升网络传输效率,而得到广泛使用。   二、JSON采集的优点 1、无需加载图片视频等信息,采集速度更快 2、部分网站防采集限制减少,采集更加顺畅     三、JSON采集实例   示例网址:https://b2b.baidu.com/ 需求:采集关键词为机械设备的信息地址,包括:公司名/链接/注册/产品/…

2023年9月5日 0条评论 33点热度 0人点赞 365crawadmin 阅读全文

八爪鱼8.4.8版本增加了本地采集升级了加速模式,采集界面有较大优化。 本教程将详细介绍8.4.8版本本地采集界面。   一、普通模式 首先根据自定义入门教程,配置一个采集任务,(这里小八配置了一个当当图书采集的任务,用来给大家演示。)任务配置完成后点击页面右上角的采集,在弹出的启动选项中选择【普通模式】 启动采集后就是本地采集的界面,先整体的来看一下   下面详细介绍每一个页面的内容 1.默认页面,上半部分显示任务的状态:已采集到的数据、重复数据量、采集用时、平均速度等,下半部分显示的是当前采集到的具体数据。 右…

2023年9月5日 0条评论 50点热度 0人点赞 365crawadmin 阅读全文

采集场景 点击房天下网站的【二手房】分类,采集【二手房】分类下的房屋数据。 采集时可选择目标城市,本示例以深圳二手房为例:https://sz.esf.fang.com 。   采集字段 房源名称、房屋介绍、联系人、售价、所在小区、具体地址、单位价格等。   点击查看高清大图,下文其他图片同理     采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:     教程说明 本篇制作时间:2022/6/29   八爪鱼版本:V8.5.4 如果因网页改版造成网址或步骤无效,无…

2023年9月5日 0条评论 43点热度 0人点赞 365crawadmin 阅读全文

有很多网站,是需要登录账号密码以后,才能采集到目标数据的。有的网站登录时还会需输入验证码。 针对这类网站,八爪鱼提供多种解决方法。本课将详细讲解。   方法一、浏览器模式+记住Cookie   针对需要登录的网站,我们可以先将八爪鱼切换成浏览器模式,在浏览器模式下完成登录。然后通过获取Cookie记住登录状态。这样,八爪鱼 能在执行采集任务时,直接以登录状态打开网页,然后再采集数据。   场景一:输入账号、密码登录   以豆瓣网为例, 登录网址为:https://www.douban.com 实际要采集数据的网址为…

2023年9月5日 0条评论 25点热度 0人点赞 365crawadmin 阅读全文

有时候,我们有大量同类网页,希望八爪鱼能自动采集每个网页中的数据。通过设置【URL循环】,可实现此需求。   什么是同类网页?结构相同、字段差不多的网页。例:   京东商品详情页: https://item.jd.com/1138288.html https://item.jd.com/27305099378.html https://item.jd.com/46339353993.html   豆瓣电影详情页: https://movie.douban.com/subject/26387939/ https://…

2023年9月5日 0条评论 33点热度 0人点赞 365crawadmin 阅读全文

采集场景 打开东方财富网【定向增发股】类目的网页:http://data.eastmoney.com/other/dxzf.html ,采集页面上显示的股票信息。    采集字段 股票简称、基金代码、发行方式、发行总数、发行价格、最新价、发行日期、增发上市日期、锁定期、股票代码详情链接、当前采集时间等字段。   点击查看高清大图,下文其他图片同理     采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:     采集步骤   步骤一、打开网页 步骤二、创建【循环-提取…

2023年9月5日 0条评论 16点热度 0人点赞 365crawadmin 阅读全文

在 客户端界面介绍 里,我们简单讲了数据采集的2种模式:【使用模板采集数据】和【自定义配置采集数据】。 本文将详细讲解【使用模板采集数据】,【自定义配置采集数据】可点击开始学习 。   一、使用【使用模板采集数据】 顾名思义,【采集模板】是由八爪鱼官方提供的、做好的采集模板,目前已有200+采集模板,涵盖主流网站的采集场景。模板数还在不断增加。 【使用模板采集数据】时,只需输入几个参数(网址、关键词、页数等),就能在几分钟内快速获取到目标网站数据。(类似PPT模板,只需修改关键信息就能直接使用,无需自己从头配置。)…

2023年9月5日 0条评论 25点热度 0人点赞 365crawadmin 阅读全文
1434445464754