1、什么样的网页是列表类型的网页 列表类型的网页是具有相同元素的内容页按照一定的线性顺序排列分布的网页,如下图所示: 2、如何采集列表类型的网页 在智能模式下,后羿采集器默认按照列表类型的网页进行智能识别,并完成页面列表元素内部所有字段的自动识别和采集。 如果后羿采集器自动识别的结果不符合您的需求,您可以手动点选列表。 (1)软件自动识别列表元素内部字段并进行采集 (2)手动点选列表 关于采集字段的设置可以看这里→_→ 如何对采集字段进行配置

2023年9月5日 0条评论 71点热度 0人点赞 365crawadmin 阅读全文

在设置采集任务的过程中,有时候我们会遇到一些不需要采集的数据,如某些数值为空的数据或者包含某些字符的数据,从而在一定程度上影响了采集速度和效果,针对这种情况我们可以使用数据筛选功能,避免采集到无效数据。 智能模式中,“数据筛选”功能按钮在任务操作栏的右上角,点击之后会打开筛选条件设置窗口,如下图所示。 流程图模式中,“数据筛选”功能在提取数据组件菜单栏的右上角,,点击之后会打开筛选条件设置窗口,如下图所示。(如果流程图中有多个提取数据组件,数据筛选是共享的,在任意一个提取数据组件中打开设置都可以) 在数据筛选功能界…

2023年9月5日 0条评论 42点热度 0人点赞 365crawadmin 阅读全文

终端标识可以理解为您当前电脑中所安装的后羿采集器软件的身份证号码,默认生成的终端标识由您的“电脑名称+随机数”构成,您也可以在设置中心进行修改。 终端标识主要用于同一个账号在多台电脑上登录的场景,当您的账号在多台电脑上登录时,如果您同时登录的电脑数量超过了套餐限制(后羿采集器的账号可以在任意一台电脑上登录,但是同时登录的电脑数量存在限制,具体可以参考官网价格页面的介绍),软件会显示出所有正在登录中的终端标识,并提示您需要断开其中一个正在登录中的终端,然后才能进行登录操作。 终端标识和账号存在关联,因此同一个账号在不…

2023年9月5日 0条评论 63点热度 0人点赞 365crawadmin 阅读全文

后羿采集器支持图像识别功能,可以识别图像中的文字,但是并非所有图像都可以识别,大家可以先进行测试,如果测试不成功,说明你遇到的情况暂时无法支持。 我们以智能模式中采集后羿采集器官网教程页为例,流程图模式的设置方式与此相同。 如下图所示,我们可以看到标题字段中有很多乱码,这是因为我们在网页中使用了图片替代了文字,这些图片在网页中和其他文字看起来是一样的,但是采集下来时就会变成乱码。 此时我们可以右击字段,然后在识别格式中选择“内容乱码”。 之后在字段上会出现“识别”按钮。 点击“识别”按钮,软件会进行图像识别,识别结…

2023年9月5日 0条评论 64点热度 0人点赞 365crawadmin 阅读全文

后羿采集器,基于人工智能技术,无需编程,可视化操作,免费导出采集结果,只需输入网址就能自动识别采集内容的数据采集工具。 简介 Typecho是一款开源的PHP博客系统,它提供了一个简单、灵活和高效的方式来创建个人博客或网站。Typecho的设计理念是简约而强大,它注重用户体验和代码质量。

2023年9月5日 0条评论 134点热度 0人点赞 365crawadmin 阅读全文

后羿采集器,基于人工智能技术,无需编程,可视化操作,免费导出采集结果,只需输入网址就能自动识别采集内容的数据采集工具。 简介 PostgreSQL是一种开源的关系型数据库管理系统(DBMS),它是由全球各地的志愿者共同开发和维护的。作为一种高级数据库系统,PostgreSQL具有强大的功能和广泛的应用领域,被广泛用于各种规模的项目和企业。

2023年9月5日 0条评论 53点热度 0人点赞 365crawadmin 阅读全文

后羿采集器,基于人工智能技术,无需编程,可视化操作,免费导出采集结果,只需输入网址就能自动识别采集内容的数据采集工具。 简介 Publii是一款开源的静态网站生成器,旨在帮助用户快速创建安全、快速、现代的静态网站。它提供了用户友好的界面,不需要编码知识,只需拖放和配置即可创建专业级的网站。

2023年9月5日 0条评论 41点热度 0人点赞 365crawadmin 阅读全文

后羿采集器,基于人工智能技术,无需编程,可视化操作,免费导出采集结果,只需输入网址就能自动识别采集内容的数据采集工具。 简介 Contentstack是一款头脑风暴推出的内容管理系统,专注于帮助企业和开发团队高效管理、交付和优化数字内容。它被设计为适应现代数字化需求的解决方案,允许用户在不同渠道上轻松创建、编辑和发布内容,从而提供卓越的数字体验。

2023年9月5日 0条评论 50点热度 0人点赞 365crawadmin 阅读全文

问题: 后羿采集器能采集XX网站吗? 回答: 后羿采集器支持大部分网站的采集。有2种采集方式: 智能模式:基于人工智能算法,只需输入网址就能智能识别列表数据、表格数据和分页按钮。 基本操作流程可以参考官网的教程: 智能模式 基本操作流程 流程图模式:只需根据软件提示在页面中进行点击操作,完全符合人为浏览网页的思维方式。 基本操作流程可以参考官网的教程: 流程图模式 基本操作流程 【温馨提示】为了保护您的隐私,您所有的任务及配置都以加密形式存储于云端,除了您个人外任何人都无法查看具体的内容,您在采集过程中输入的账号密…

2023年9月5日 0条评论 73点热度 0人点赞 365crawadmin 阅读全文

问题: 采集的网页显示需要登录怎么办? 回答: 后羿采集器有预登录功能,在编辑界面的右上角能够看到。 详情请参考预登录的教程: 预登录和预执行操作

2023年9月5日 0条评论 65点热度 0人点赞 365crawadmin 阅读全文
1212223242529