信息

【技术分享】个人站长如何批量采集文章?火车头采集器使用详细教程

热帖

个人站长如何批量采集文章?火车头采集器使用详细教程

已经很久没有使用火车头采集器了。想起第一次研究火车头采集还是刚毕业做外推那会儿,经常会登陆火车头采集器去采集各大相关网站的相关内容。而且那个时候采集之风盛行,到处是各种采集站,尤其是小说站、文章站等,动不动就是采集数十万的文章,网站做到权重 4 那是轻而易举。虽然现在大部分网站很少采集了,但采集还是无处不在,因为一些所谓的原创站点,文章内容很有可能也是采集之后再进行加工制作而成的。所以掌握一种采集技巧对个人站长而言还是很有帮助的。下面沃森博客分享的便是火车头采集器使用教程,供新手个人站长们参考。

个人站长如何批量采集文章?火车头采集器使用详细教程

火车头采集器网址规则设置

第一步、打开火车头采集器,点击【新建】创建一个新任务,填写一个任务名,设置采集网址规则,分别设置列表页采集规则和列表页所在的文章页规则,分为以下两个步骤。

步骤 1:添加起始网址,点击【添加】,选择批量/多页,在地址格式设置需要采集的网页链接,点击【添加】和【完成】即可。此步骤目的是确立有多少个栏目分页链接。

个人站长如何批量采集文章?火车头采集器使用详细教程

采集网页链接技巧说明:首先确定要采集的网页栏目页,分别查看栏目分页 1、分页 2 和分页 3 链接规律,对比后会发现分页 2 和分页 3 链接很像,只有 2 和 3 变化了(分页 1 其实也是如此,为了 SEO 格式一般做了隐藏,所以分页 1 和栏目首页链接一致)可以分析是按照等差数列排列,其实绝大多数的网站栏目页分页都是等差数列来排列的,包括尹华峰博客也是如此。因此,在填写规则是选择等差数列,在地址格式处填写分页 2 的链接,将变化的数字用(*)代替,根据栏目分页的多少设置项数即可。

步骤 2:多级网址获取,点击【添加】,选择网址获取选项,添加提取网址的规则,使用熟练后建议使用结果网址过滤功能,将需要包含的网址和不必包含的网址写进去,可以测试一下规则是否填写正确,然后保存即可。此步骤目的是确立每个栏目下的文章页链接。

个人站长如何批量采集文章?火车头采集器使用详细教程

多级网址获取技巧说明:我们要获取的是该栏目下的文章页链接,去原网页查看栏目分页的源代码,在该源码页找到第一篇文章页链接的位置,然后在上面选取一小段通用代码,一定是每个栏目页都会出现的代码,通常的表现形式会带有 list 或者 article 的代码。

火车头采集器内容规则设置

第二步、设置采集内容规则,可以在典型页面处填写一篇文章页链接进行测试,分别设置标题采集规则和内容采集规则,也分为两个步骤。

个人站长如何批量采集文章?火车头采集器使用详细教程

步骤 a:双击【标题】标签,一般网页的标题是<title>标签,所以这一步可以默认,如果有需要的话是可以设置内容过滤,以及内容替换的。

步骤 b:双击【内容】标签,内容提取规则和第一步的步骤 2 多级网址获取方法是一样的。这里是获取内容,所以是查看内容页的源代码,在该页面找到正文内容,在正文首段上面截取一小段通用代码,该代码也是所有文章页都会出现的,通常的表现形式是 article 标签为起始,</article>为结束。同样也可以设置内容过滤、内容替换以及标签过滤等,将不需要的信息过滤掉。如不需要图片,可以勾选过滤掉 img 图片标签。

个人站长如何批量采集文章?火车头采集器使用详细教程

 

火车头采集器发布内容设置

第三步、发布内容设置,勾选需要启用的发布方式,保存即可,然后在任务列表处右键任务名,点击【开始任务】等待采集完成。

个人站长如何批量采集文章?火车头采集器使用详细教程

注,火车头采集器发布内容分为两个方式,方式一是 web 在线发布到网站,需要添加发布配置。新手不建议直接发布到网站,建议勾选第二个保存为本地。至于文件模板可以【查看默认模板】,然后选择 TXT 格式即可。

个人站长如何批量采集文章?火车头采集器使用详细教程

 

结语:火车头采集器功能十分强大,除了采集文章还可以采集视频等,火车头采集器使用规则并不难,根本不需要懂什么编程之类的语言,只需能看懂一些常用的简单代码即可,操作一两次基本可以完全掌握,是一款非常棒的 SEO 工具。

🌟-阅读剩余-🌟
版权声明 1、本网站名称:安鹿轩
2、本站永久网址:https://www.anlu1314.com
3、本网站的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,请联系在本站私信站长进行删除处理。
4、本站一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
6、本站资源大多存储在云盘,如发现链接失效,请联系我们我们会第一时间更新。

THE END