这是一篇详细介绍 Python 爬虫入门的教程,从实战出发,适合初学者。读者只需在阅读过程紧跟文章思路,理清相应的实现代码,30 分钟即可学会编写简单的 Python 爬虫。这篇 Python 爬虫教程主要讲解以下 5 部分内容: 了解网页; 使用 requests 库抓取网站数据; 使用 Beautiful Soup 解析网页; 清洗和组织数据; 爬虫攻防战; 了解网页 以中国旅游网首页(http://www.cntour.cn/)为例,抓取中国旅游网首页首条信息(标题和链接),数据以明文的形式出面在源码中。在中…

2023年9月11日 0条评论 39点热度 0人点赞 365crawadmin 阅读全文

本例演示的是文件下载、FTP文件上传等功能。 分析 打开某网站移动版的热搜榜单,网址为 https://m.---.cn/?vt=4&pos=108&sudaref=sina.cn 。通过浏览器的开发者工具,可以看到网络请求 https://m.---.cn/api/container/getIndex?containerid=102803&openApp=0 为榜单内容,json格式。 采集规则 新建一个采集规则,命名为“图片下载测试&r…

2023年9月5日 0条评论 39点热度 0人点赞 365crawadmin 阅读全文

网站一般由栏目页和内容页组成。首页、主题、搜索结果等也可视为栏目页。 采集网页数据,即从栏目页获得内容页地址列表,从内容页提取所需数据。 网页数据采集有着广泛的用途。例如,金融数据采集分析,门户新闻实时监控,监控电商的库存变化/价格变化,舆情分析,客户资料采集,短视频/文章同步发布到各平台。因此,掌握好这门技术,是非常有必要的。 现在,我们做一个热点新闻推送到手机的功能。我们以某门户站点的新闻热搜榜单为采集对象,采集结果将发布到企业微信。 页面分析 使用Chrome浏览器,按F12打开浏览器的开发者工具,再打开门户…

2023年9月5日 0条评论 39点热度 0人点赞 365crawadmin 阅读全文

翻译功能,一般是调用第三方API。大概流程是,在一些提供翻译服务的站点注册帐号,然后申请API权限,之后再调用其API接口或SDK,即可实现翻译功能。 一般情况下,这些翻译机构都提供一定的免费额度,超出部分会按字数收费。 本文以蜜蜂采集器为例,调用百度翻译接口,实现文本翻译功能。 插件介绍 蜜蜂采集器的插件功能,分为列表页网址插件、数据处理插件、标签数据处理插件、文件上传插件、内容发布插件、消息通知插件。每一种插件都支持PHP、Python、Nodejs、Go四种编程语言。 其中,数据处理插件是在一条采集记录中的所…

2023年9月5日 0条评论 34点热度 0人点赞 365crawadmin 阅读全文

现在很多网站采用异步请求方式来展现网页内容,而异步请求中的内容多为JSON格式。如果采用可视化采集技术,则要展示这样的页面内容,需要先加载各种css、js文件,速度较慢,网页的可视化展示也比较占用系统资源;采集网页过程中页面呈现可能偶尔会卡住,也非常影响体验。 对这种JSON格式异步数据的采集,如果采用传统采集方式,使用JSON表达式解析,也可以很方便。 下面以同花顺的“7×24小时要闻直播”为例,使用蜜蜂采集器进行简单的采集测试。 我们先使用浏览器访问同花顺的“7&…

2023年9月5日 0条评论 22点热度 0人点赞 365crawadmin 阅读全文

本文以微博评论的采集为例,简单介绍一下数据采集的分析思路,以及JSON数据的解析、发布到文件的文件模板编写等。 环境准备 VSCode: 全称Visual Studio Code,是微软公司开发的一款跨平台文本编辑器,支持多种语言和文件格式的编辑。下载地址:点击下载  蜜蜂采集器: 一款数据采集软件。 页面分析 使用浏览器打开微博热搜榜,打开其中一个热搜,进入后找到其中一个评论较多的微博文章页面(复制微博地址到新标签页中打开)。按F12打开浏览器的开发者工具。刷新页面,并不断下拉加载更多评论,再分析&ld…

2023年9月5日 0条评论 45点热度 0人点赞 365crawadmin 阅读全文

云采集排错教程   本教程针对本地采集有数据,云采集没有数据的排错教程,如果本地采集没有数据,请先参考本地采集排错教程 本地采集有数据,云采集没有数据主要原因为以下几点:   1.防采集 2.网站或网速原因 3.网络环境不同,源码有变,原xpath定位不准 4.网站只允许单浏览器或单IP登录     一、防采集 防采集主要是以下三类:IP被封禁止访问、出现验证码、云上需要登录 针对以上三种情况,都可以通过采集网页的html源码进行观察,这里我们以百姓网招聘数据采集为例。如下图1所示启动云采集后子任务出现采集为0的情…

2023年9月5日 0条评论 30点热度 0人点赞 365crawadmin 阅读全文

问题: 没有在教程和常见问题中找到答案怎么办? 回答: 1. 后羿采集器的官网右侧有提供在线客服的聊天窗和微信客服的微信号,可以联系他们进行咨询。(工作时间:周一至周五,8:30-11:30,13:00-17:30,法定节假日正常休息)

2023年9月5日 0条评论 19点热度 0人点赞 365crawadmin 阅读全文

“火车伪原创插件.dll” 文件放到Plugins目录下。 “火车伪原创插件配置工具.exe” 文件放在采集器根目录下,和LocoySpider.exe放在同一目录。 通过使用配置工具来 填写账号、密码等信息即可。   新建任务,创建"标题"和"内容"标签,   然后在其他设置中->插件->采集结果处理插件,选择"火车伪原创插件.dll"即可。 下载链接:点击打开链接 注意: (1)若是运行插件时出现如下…

2023年9月4日 0条评论 52点热度 0人点赞 365crawadmin 阅读全文

插件下载地址:点击下载插件 在火车采集器中如何安装智能原创插件 第一步,使用解压软件,提取插件安装包中的文件,解压到一个文件夹中。 第二步,打开解压后的文件夹,将里面的【5118 智能原创.dll】文件,放入在【火车采集器】安装目录下的Plugins文件夹里。 第三步,将文件夹中的【5118智能原创配置工具.exe】和【Newtonsoft.Json.dll】以及【Plugin_Helper.dll】文件,放入在【火车采集器】安装目录中。 第四步,在【火车采集器】的根目录里,打开【5118 智能原创配置工具.exe…

2023年9月4日 0条评论 54点热度 0人点赞 365crawadmin 阅读全文