在做新闻类数据采集的时候,新闻的正文一般都有多个段落。 如果想将正文完全按照原文结构顺序采集下来,并将所有内容合并到一条数据中,可以用文章段落构建循环,然后设置【同一字段多次提取合并为一行】。 本文将以网易财经新闻采集为例详细说明。 示例网址:http://money.163.com/17/0706/01/COKG34EG002580S6.html 先按照需求提取数据。将每一段文本看做一个列表,按照 列表数据采集的方法,创建循环列表。如下图所示: 启动采集以后发现,得到很多条数据,一段对应一条数…