采集的是博客园的首页:https://www.cnblogs.com/
配置主要字段:标题,作者,发布日期,正文内容
系统默认返回字段:抓取的URL(原文),抓取时间,第一张图片链接;
列表翻页数量:2页,如需调整,可到该任务选项卡"采集更多网址配置(批量网址配置)"中进行配置
主要数据示例如下:
采集的是博客园的首页:https://www.cnblogs.com/
配置主要字段:标题,作者,发布日期,正文内容
系统默认返回字段:抓取的URL(原文),抓取时间,第一张图片链接;
列表翻页数量:2页,如需调整,可到该任务选项卡"采集更多网址配置(批量网址配置)"中进行配置
主要数据示例如下:
【通用】采集微信公众号文章,可按微信公众号名称,ID或者关键词进行采集。
模板为采集关键词: "高可用架构",你可以随意更改为其它关键词或公众号名称,还可以同时使用多个关键词或名称,多个用逗号,分隔。
主要采集字段:微信公众号名称,公众号ID,标题,作者,发布日期,正文,描述(可使用正文截取)等。
数据如下图:
配置如下:
采集微信公众号注意事项:
采集的内容为:新浪教育 > 教育博客 > 教育-独家推荐
入口链接:http://roll.edu.sina.com.cn/blog/jy-djtj/index.shtml
主要数据字段:标题,发布日期,内容,标签
列表翻页数量:5个列表页,如需调整,可到该任务选项卡"采集更多网址配置"中进行配置
数据内容主要如下图:
列表翻页配置如下:
采集的内容为:中国新闻网
入口链接:http://www.chinanews.com/scroll-news/news1.html
主要数据字段:标题,作者,发布日期,内容,描述,关键词,标签,分类
主要数据截图:
采集的内容为:虎嗅-首页资讯-版本2
主要数据字段:标题,作者,发布日期,内容,标签,描述,关键字
主要数据截图:(由于虎嗅文章的图片有两种模板,该版本2为采集图片地址在src属性的文章模板)