• 网址导航
  • 微信客服
  • 源码模板:6
  • 记录:4901|
  • 壁纸:7185|
  • 网页模板:6014|
  • 代码:2630|
  • 评论:1|
  • 会员:1|
wordpress自动采集插件怎么用_wordpress教程

wordpress自动采集插件怎么用_wordpress教程

浏览次数:
  
栏目: wordpress教程
信息来源: 本站原创/互联网
更新日期: 2021-05-30 01:07:46
文章简介

立业博客 www.liye5.com 免费分享第一步,安装WP-AutoPost。||第二步,创建采集任务。||第三步,调整基本设置。||第四步,设置文章来源,设置文章网址匹配规则。||第五步,设置文章抓取,抓取文章分页内容。||第六步,文章内容过滤。

  • 正文开始
  • 相关阅读
  • 推荐作品

WP-AutoPost是目前最好用的WordPress自动采集发布插件,最大的特点是可以采集来自于任何网站的内容并自动发布到你的WordPress站点。

不像其他大部分WordPress采集插件,只能根据Feed进行采集,使用Feed采集有很大的弊端,首先必须找到全文Feed,而现在网上全文Feed很少,大部分只能采集到文章摘要,就算使用Feed采集到文章摘要也需要点击链接才能查看原文,相当于给别的网站做外链。

做英文垃圾站用的比较多的WP-Robot也只有20几个采集来源,文章来源比较单一有限。

而WP-AutoPost就没有上面这些劣势,真正做到可以采集任何网站的内容并自动发布,采集过程完全自动进行无需人工干预,并提供内容过滤、HTML标签过滤、关键词替换、自动链接、自动标签、自动下载远程图片到本地服务器、自动添加文章前缀后缀、并且可以使用微软翻译引擎将采集的文章自动翻译为各种语言进行发布。

WP-AutoPost中文免费下载地址:https://www.xuewangzhan.net/cj/11379.html (官网地址:http://wp-autopost.org/zh)

一、安装WP-AutoPost

和安装其他WordPress插件一样,直接上传到插件目录,激活即可使用,无需再进行额外设置或修改代码。

二、创建采集任务

点击“新建任务”后,输入任务名称,即可创建新任务,创建好新任务之后可以在任务列表中查看到该任务,就可对该任务进行更多设置。

m.png

三、基本设置功能

1562903456(1).jpg

在基本设置选项卡下,可以进行如下设置:

任务名称:可以修改任务名称分类目录:该任务采集文章发布到的分类目录作者:该任务采集文章的发布作者,必须是WordPress里的注册用户更新时间间隔:间隔多长时间检测一次该采集任务下是否有新文章可以更新字符集:采集目标网站的字符集编码,默认为UTF8,如果目标网页字符集编码不是UTF8,抓取的网页会出现乱码,设置正确的字符集即可解决该问题(如何正确设置字符集)下载远程图片:如果该任务下采集的文章里包含图片,可以选择是否下载远程图片到本地服务器,选择下载远程图片,可进一步选择是否将下载的图片信息保存到WordPress媒体库中自动标签:选择是否使用自动标签标签列表:使用自动标签后如果文章包含列表里的关键词,将自动添加标签匹配完整的单词:该设置对英文文章有效,中文文章请勿启用该设置

四、文章来源设置

在该选项卡下我们需要设置文章来源的 文章列表网址及 具体文章的匹配规则

我们以采集“新浪互联网新闻”为例,文章列表网址为http://roll.tech.sina.com.cn/internet_worldlist/index.shtml 因此在 手工指定文章列表网址 中输入该网址即可,如下所示:

1562903471(1).jpg

之后需要设置该文章列表网址下具体文章网址的匹配规则

相关推荐:《WordPress教程》

五、文章网址匹配规则

文章网址匹配规则的设置非常简单,无需复杂设置,提供两种匹配模式,可以使用URL通配符匹配,也可以使用CSS选择器进行匹配,通常使用URL通配符匹配较为简单。

1. 使用URL通配符匹配

通过点击列表网址 http://roll.tech.sina.com.cn/internet_worldlist/index.shtml 上的文章,我们可以发现每篇文章的URL都为如下结构

http://tech.sina.com.cn/i/2013-06-27/16328485884.shtml

因此将URL中变化的数字或字母替换为通配符 (*) 即可,如:http://tech.sina.com.cn/i/(*)/(*).shtml

1562908567(1).png

2. 使用CSS选择器进行匹配

使用CSS选择器进行匹配,我们只需要设置 文章网址的CSS选择器 即可(不知道CSS选择器为何物,一分钟学会如何设置CSS选择器),通过查看列表网址 http://roll.tech.sina.com.cn/internet_worldlist/index.shtml 的源代码即可轻松设置,找到该列表网址下具体文章的超链接的代码,如下所示:

1562903505(1).png

可以看到,文章的超链接a标签在class为“contList”的标签内部,因此 文章网址的CSS选择器 只需要设置为.contList a 即可,如下所示:

w.png

设置完成之后,不知道设置是否正确,可以点击上图中的测试按钮,如果设置正确,将列出该列表网址下所有文章名称和对应的网页地址,如下所示:

1562903530(1).png

六、文章抓取设置

在该选项卡下,我们需要设置文章标题和文章内容的匹配规则,提供两种方式进行设置,推荐使用CSS选择器方式,使用该方式更为简单,精确。(不知道CSS选择器为何物,一分钟学会如何设置CSS选择器)

我们只需要设置文章标题CSS选择器和文章内容CSS选择器,即可准确抓取文章标题和文章内容。

在文章来源设置里,我们以采集”新浪互联网新闻“为例,这里还是以该例子讲解,通过查看列表网址 http://roll.tech.sina.com.cn/internet_worldlist/index.shtml 下某一篇文章的源代码即可轻松设置,例如,我们通过查看某篇具体文章 http://tech.sina.com.cn/n/i/2013-06-10/06308430630.shtml 的源代码,如下所示:

1562903505(1).png

可以看到,文章标题在id为“artibodyTitle”的标签内部,因此文章标题CSS选择器只需要设置为#artibodyTitle 即可;

同样的,找到文章内容的相关代码:

1562903560(1).jpg

可以看到,文章内容在id为“artibody”的标签内部,因此文章内容CSS选择器只需要设置为 #artibody 即可;如下所示:

a.png

设置完成之后,不知道设置是否正确,可点击测试按钮,输入测试地址,如果设置正确,将显示出文章标题和文章内容,方便检查设置

s.png

七、抓取文章分页内容

如果文章内容过长,有多个分页同样可以抓取全部内容,这时需要设置文章分页链接CSS选择器,通过查看具体文章网址源代码,找到分页链接的地方,例如某篇文章分页链接代码如下:

d.png

可以看到,分页链接A标签在class为 “page-link” 的标签内部

因此,文章分页链接CSS选择器设置为 .page-link a 即可,如下所示:

f.png

如果勾选当发表时也分页时,发表文章也将同样被分页,如果你的WordPress主题不支持 <!- – nextpage – -> 标签,请勿勾选。

八、文章内容过滤功能

文章内容过滤功能,可过滤掉正文中不希望发布的内容(如广告代码,版权信息等),可设置两个关键词,删除掉两个关键词之间的内容,关键词2可以为空,表示删除掉关键词1之后的所有内容。

如下所示,我们通过测试抓取文章后发现文章里有不希望发布的内容,切换到HTML显示,找到该内容的HTML代码,分别设置两个关键词即可过滤掉该内容。

1562903614(1).png

g.png

如果需要过滤掉多处内容,可以添加多组设置。

九、HTML标签过滤功能

HTML标签过滤功能,可过滤掉采集文章中的超链接(例如a标签)。

以上就是wordpress自动采集插件怎么用的详细内容,更多请关注立业博客其它相关文章!

转载请注明:立业博客分享[--class.name--]教程» wordpress自动采集插件怎么用_wordpress教程

wordpress怎么打开很慢_wordpress教程
« 上一篇 2021-05-30 01:07:46
docker环境怎么安装WordPress_wordpress教程
下一篇 » 2021-05-30 01:07:46
  • 帝国cms评论时间如何去和去掉时分秒保留日期
    6阅读0条评论来源:互联网/原创
    立业博客 www.liye5.com 免费分享帝国cms评论默认的时间样式是:2021-4-19 12:39:27,那么如何修改成2021-4-19,解决办法如下:一、使用帝国cms默认评论解决办法:路径:e/pl/more/index.php 找到:$saytime=date(&#39;Y-
  • 帝国cms本地电脑搬家到服务器,内容页链接还是127.0.0.1
    3阅读0条评论来源:互联网/原创
    立业博客 www.liye5.com 免费分享在本地电脑搭建帝国cms,调式好了以后在搬家到服务器,但是内容页链接还是127.0.0.1开头处理办法其实很简单1、修改网站地址路径:后台--系统--系统设置--系统参数设置--网站地址(
  • 网站搬家迁移数据后登陆后台提示以下代码
    1阅读0条评论来源:互联网/原创
    立业博客 www.liye5.com 免费分享网站搬家迁移数据后登陆后台提示以下代码:Table &#39;cywlv2020.***_enewsloginfail&#39; doesn&#39;t exist
    select count(*) as total from **_enewsloginfail where ip=&#
  • 帝国CMS内容页灵动标签调用上一篇下一篇代码
    4阅读0条评论来源:互联网/原创
    立业博客 www.liye5.com 免费分享帝国cms内容模版在文章结尾常常会调用上一篇和下一篇,那么如何实现灵动标签的调用呢我们先看内容模版中上一篇和下一篇的模版变量上一篇:[!--info.pre--]下一篇:[!--info.next-
  • windows系统建站环境下的帝国cms搬家经历
    4阅读0条评论来源:互联网/原创
    立业博客 www.liye5.com 免费分享这两天服务一个客户,客户是一名人民教师,刚接手学校的网站工作。服务的内容主要就是网站的搬家以及提供域名找回的简单指导!对于网站搬家大家可以参考我博客的文章《帝国cms搬
  • 帝国cms栏目id归零从1开始解决方案
    6阅读0条评论来源:互联网/原创
    立业博客 www.liye5.com 免费分享在帝国cms建站过程,有时候网站需要改版,把不需要的栏目删除,这就造成栏目id的不连续性,为了栏目id的连续性,可以清空栏目id,让栏目id归零从1开始,解决办法如下:复制SQL数据库代码TRU
  • 帝国cms自定义页面修改提交不生效
    4阅读0条评论来源:互联网/原创
    立业博客 www.liye5.com 免费分享帝国cms自定义页面修改或者增加自定义页面,无法生成想要的效果?一般无法增加自定义页面就是根目录没有设置777权限,而修改自定义页面提交后无法生成效果一般就是网站搬家后没有
  • 帝国cms评论仿wordpress用户名添加网址作为外链跳转
    3阅读0条评论来源:互联网/原创
    立业博客 www.liye5.com 免费分享帝国cms评论功能默认匿名评论作者是不带任何链接的,那么如何实现类似wordpress博客程序,输入用户名、网址,点击用户名会跳转到用户预留的网站链接呢其实很简单,评论外链作为吸引
  • 帝国cms此网页显示There was a problem with the request
    6阅读0条评论来源:互联网/原创
    立业博客 www.liye5.com 免费分享帝国cms搬家或者换域名后打开信息内容页显示此网页There was a problem with the request,这设置的域名与我们浏览内容页显示的域名不一致造成的只需要修改网站地址即可路径:
  • 帝国cms评论功能的用户名自带链接如何去除
    3阅读0条评论来源:互联网/原创
    立业博客 www.liye5.com 免费分享帝国cms评论功能的用户名自带链接是默认用户登陆状态下自带的链接,也就是跳转到用户个人空间。这时候如果不需要显示登陆状态下的跳转只需要修改e/data/template/pltemp.txt
  • 帝国cms网站地图生成不了解决办法
    3阅读0条评论来源:互联网/原创
    立业博客 www.liye5.com 免费分享在上一篇文章中《帝国CMS网站地图sitemap.xml制作与提交百度收录设置》,部分网友按照覃师宁博客介绍内容自定义页面设置网站地图sitemap.xml,发现生成不了,这是什么原因造成的,
  • 帝国cms官方评论插件如何调用评论自定义字段
    6阅读0条评论来源:互联网/原创
    立业博客 www.liye5.com 免费分享部分网友咨询网站评论实用帝国cms官方ajax插件,但是评论自定义字段无法调用,也就是在文件index.temp.php中调用字段前台不显示如何解决?很简单,在e\extend\infocomment\index.ph
  • 帝国cms7.5如何设置会员VIP投稿不需要审核直接通过
    2阅读0条评论来源:互联网/原创
    立业博客 www.liye5.com 免费分享为了网站建设的需要,很多使用帝国cms搭建的网站往往开通了投稿的功能,为了区分普通会员和VIP会员的区别,如何设置VIP会员投稿直接发布不需要审核,而普通会员需要审核才能发布呢?
  • 帝国CMS投票结果如何在内容页面调用直接显示
    2阅读0条评论来源:互联网/原创
    立业博客 www.liye5.com 免费分享帝国CMS投票结果默认是在单独页面显示,那么如何在内容信息页面直接调用显示呢?内容直接显示投票结果,如图具体实现方式:1、内容页面调用显示投票项目路径:后台--模版-内容模版--
  • 帝国CMS网站地图sitemap.xml制作与提交百度收录设置
    2阅读0条评论来源:互联网/原创
    立业博客 www.liye5.com 免费分享帝国CMS网站地图sitemap.xml的作用是为了方便百度蜘蛛爬行和索引网页,加快网站页面的收录,那么帝国cms如何制作网站地图sitemap.xml页面,并提交到百度站长搜索资源平台!1、帝国c
  • 帝国cms如何关闭自带的会员注册功能
    1阅读0条评论来源:互联网/原创
    立业博客 www.liye5.com 免费分享使用帝国cms建站如果没有必要会员注册的需要,还是建议关闭会员注册的功能,一方面为了网站安全,另一方面也避免一些别有用心的人恶意注册导致数据库资源大量占用间接影响服务器
  • 帝国CMS如何调用评论最多的文章
    3阅读0条评论来源:互联网/原创
    立业博客 www.liye5.com 免费分享帝国CMS调用评论最多的文章我们需要使用灵动标签进行调用,调用代码如下 [e:loop={&#39;select * from [!db.pre!]ecms_cms where checked=1 order by plnum desc,id desc lim
  • 帝国cms7.5留言板nginx伪静态规则设置方法
    3阅读0条评论来源:互联网/原创
    立业博客 www.liye5.com 免费分享帝国cms7.5留言板页面url网址默认是动态页面e/tool/gbook/?bid=1模式,那么网址url如何进行伪静态规则设置成为gbook/1.html样式呢?先看案例网址:留言板动态网址: http://qinshin
  • 帝国cms新闻模型与文章模型的区别
    4阅读0条评论来源:互联网/原创
    立业博客 www.liye5.com 免费分享帝国cms新闻模型和文章模型的区别,以下观点和内容是覃师宁博客阅读帝国cms使用手册后得出的结论1、新闻系统模型新闻正文(newstext)字段存放在数据库,而文章系统模型新闻正文(
  • 帝国cms文章信息添加反斜杠前台页面不显示解决办法
    4阅读0条评论来源:互联网/原创
    立业博客 www.liye5.com 免费分享帝国cms后台添加文章内容使用到反斜杠\\,但是前端文章页面并不会出现反斜杠\\符号,对于前端网站而言,晒代码经常需要反斜杠的地方很多,不能使用就很不方便了。那么如何解决?某歌
  • 新闻媒体资讯模板/个人博客资讯模板/企业新闻资讯官网帝国cms模板响应
    1阅读0条评论来源:互联网/原创
    模板是用帝国cms最新内核开发的模板,该模板属于新闻媒体资讯模板/个人博客资讯模板/企业新闻资讯官网 首先声明:此模板不是原创,是仿的一个站,由于一个小朋友喜欢,我就给他仿了一下!不是原创哦 !是仿仿仿的! 换成你的,颜色都可以修改,改完让你耳目一新的感觉! 响应式自适应设计,同一个后台,数据即时同步,简单适用! 原创设计、手工书写DIV+CSS, 完美兼容IE7+、Firefox、Chrome、360浏览器等;主流浏览器; 页面以下为引用:简洁简单,容易管理,DEDE内核都可以使用;附带测试
  • 大气财务公司/会计公司/代理记账公司网站模板/电脑端手机端自适应模板
    49阅读0条评论来源:互联网/原创
    帝国cms最新内核开发的模板,该模板属于企业通用类、金融、理财、投资类企业都可使用, 这款模板使用范围极广,不仅仅局限于一类型的企业,你只需要把图片和产品内容; 换成你的,颜色都可以修改,改完让你耳目一新的感觉!
  • 电脑壁纸/手机壁纸/美女图片整站源码(帝国cms内核)瀑布流美图网站源码免
    51阅读0条评论来源:互联网/原创
    今天立业阁花了一点时间,仿了一个电脑手机壁纸网站,我已经采集了几千条数据,网站是瀑布流类型的美图网站源码,可以做电脑壁纸、手机壁纸、美女图篇等网站,也可以做视频播放站,都可以的,更加牛的是,给大家的福利,免费下载哦!有火车头采集哦! 源码介绍: 源码名称:【原创模板】电脑壁纸/手机壁纸/美女图片整站源码(帝国cms内核)瀑布流美图网站源码免费下载 模板内核:基于帝国cms7.5版本 目标站:可以多站点采集,目前只采集了一个站点(采集规则有偿) 安装环境:php7.3+mysql5.6 授权:无
  • 2021年精仿小刀娱乐网整站源码(带数据、整套火车头采集)帝国cms内核带售
    49阅读0条评论来源:互联网/原创
    源码名称:【原创模板】2021年精仿小刀娱乐网整站源码(带数据、整套火车头采集)帝国cms内核带售后包更新 模板内核:基于帝国cms7.5版本 目标站:小刀娱乐网 安装环境:php7+mysql 授权:无任何限制,开源无加密 源码功能: 1.后台自定义前台各种参数,无需再模板中修改(最主要的) 2.广告位丰富,均在后台控制,自由设置、添加。 3.集成百度推送、sitemap商业插件、商业留言板插件。 4.已做SEO优化并集成og协议。 5.等等,接了个单,这里先空着,先去做单子! 价
  • 帝国cms内核中小学学习辅导材料/电子本科网站响应式模板/整站源码带数
    53阅读0条评论来源:互联网/原创
    源码名称:【原创模板】帝国cms内核中小学学习辅导材料/电子本科网站响应式模板/整站源码带数据/带火车头采集/公众号引流利器 模板内核:基于帝国cms7.5版本 目标站:多站采集(包括中小学作文、各种辅导知识站、试卷站、课本站等多家站) 安装环境:php7.0+mysql5.7 授权:无任何限制,开源无加密 PC和wap:响应式模板 手机端请自行打开演示站
  • 个人博客网站模板/源码模板教程站长整站源码/wordpress内核站长资源网
    149阅读0条评论来源:互联网/原创
    立业博客于2021年5月30日23点改版啦,也就是现在大家看到的,之前用的是wordpress内核的程序,主题用的是riplus,现在改版了,所以把之前的整站打包下来了,给有需要的小伙伴,以后本站,主要更新原创模板和源码,包括写采集规则哦!