提供免费采集规则
简数采集平台服务推广站

博客园-首页

兔子大叔阅读(1217)

网页数据采集模板简介

采集的是博客园的首页:https://www.cnblogs.com/

配置主要字段:标题,作者,发布日期,正文内容

系统默认返回字段:抓取的URL(原文),抓取时间,第一张图片链接;

列表翻页数量:2页,如需调整,可到该任务选项卡"采集更多网址配置(批量网址配置)"中进行配置

主要数据示例如下:

博客园-首页插图

微信公众号文章采集

兔子大叔阅读(1693)

网页数据采集模板简介

【通用】采集微信公众号文章,可按微信公众号名称,ID或者关键词进行采集。

 模板为采集关键词: "高可用架构",你可以随意更改为其它关键词或公众号名称,还可以同时使用多个关键词或名称,多个用逗号,分隔。

 主要采集字段:微信公众号名称,公众号ID,标题,作者,发布日期,正文,描述(可使用正文截取)等。

 

数据如下图:

微信公众号文章采集插图

  配置如下:

微信公众号文章采集插图(1)

采集微信公众号注意事项:

  • 1.由于搜狗微信搜索结果的限制,每个关键词只能采集前10页文章,而每个公众号,只能获取最近10条文章;
  • 2.微信采集的原始图片是无法正常显示的(防盗链了),如需图片,请选中“是否下载图片”,即可先下载到简数,再通过ftp回传到您指定位置;
  • 3.默认采集字段:标题,作者,微信号,公众号名称,内容,发布时间,第一张图片链接等

新浪博客-教育-独家推荐

兔子大叔阅读(1714)

网页数据采集模板简介

采集的内容为:新浪教育 > 教育博客 > 教育-独家推荐

入口链接:http://roll.edu.sina.com.cn/blog/jy-djtj/index.shtml

主要数据字段:标题,发布日期,内容,标签

列表翻页数量:5个列表页,如需调整,可到该任务选项卡"采集更多网址配置"中进行配置

如需采集新浪博客其它频道的内容,只需修改入口列表链接即可。(在该任务选项卡"采集更多网址配置"中配置)



数据内容主要如下图:

新浪博客-教育-独家推荐插图

 列表翻页配置如下:

新浪博客-教育-独家推荐插图(1)

同花顺-财经

兔子大叔阅读(1667)

网页数据采集模板简介

采集的内容为:同花顺-财经

入口链接:http://news.10jqka.com.cn/today_list/

主要数据字段:标题,作者,发布日期,内容,描述,关键词,标签,分类

主要数据截图:

同花顺-财经插图

虎嗅-首页资讯-版本2

兔子大叔阅读(1783)

网页数据采集模板简介

采集的内容为:虎嗅-首页资讯-版本2

入口链接:https://www.huxiu.com/

主要数据字段:标题,作者,发布日期,内容,标签,描述,关键字

主要数据截图:(由于虎嗅文章的图片有两种模板,该版本2为采集图片地址在src属性的文章模板)

I3uIJnzaAzau

虎扑NBA

兔子大叔阅读(1910)

网页数据采集模板简介

采集的内容为:虎扑NBA

入口链接:https://voice.hupu.com/nba

主要数据字段:标题,作者,发布日期,内容,描述,关键词,标签,分类

主要数据截图:

aymuiiMfMJFz

点击进入简数采集器控制台

控制台