网站采集神器
-
网站采集神器:采集不了列表页链接解决方法
2022/07/22网站采集神器热度(154)
添加header请求头:1、如果你发现要采集的网站用浏览器打开是正常显示内容的,采集的规则也没有问题,但是就是采集不了列表页的链接,那么可能就是因为缺少某些“请求头”,常见的比如:“host”,“referer”,“cookie”,“user-agent”,具体添加方法如下:2、可以先添加这2个请求头,如果还不行如果还不行的话,就把上面所说的4个常见的请求头...
-
网站采集神器:采集内容发布方法
2022/07/22网站采集神器热度(157)
入库表本插件支持将采集的数据写入任意数据表,需要入库哪个表就选择哪个表1、zblog默认表前缀是zbp_,以下都会以此为例,并以采集文章为例,系统默认数据表名称对照:2、文章入库调用接口,只有入库表选择zbp_post时,才会展示此配置。Filter_Plugin_PostArticle_CoreFilter_Plugin_PostArticle_Succ...
-
网站采集神器:采集文章页评论方法
2022/07/22网站采集神器热度(158)
【评论采集】1、添加标签,所采集的评论标签名必须为评论数据格式:1、纯文本。2、带html代码。注意事项:在采集时,前者会删除html代码,而后者不会。一般情况下,如果是评论采集,采集“评论”选择纯文本或者采集“评论”选择带html代码都可以,根据实际情况看。评论内容匹配评论内容匹配支持三种方式:1、css选择器。2、前后截取。3、正则匹配。注意!这三...
-
网站采集神器:采集文章页内容方法
2022/07/22网站采集神器热度(160)
添加标签:添加标签就是添加一种采集内容,在入库内容时,靠标签名来识别调用的内容,添加后不支持改名。数据格式:1、纯文本。2、带html代码。注意事项:在采集时,前者会删除html代码,而后者不会。一般情况下,如果是文章采集,采集“标题”选择纯文本,采集“正文”选择带html代码。内容匹配内容匹配支持三种方式:1、css选择器。2、前后截取。3、正则匹配。...
-
网站采集神器:采集链接过滤方法
2022/07/22网站采集神器热度(131)
采集链接过滤解决方法:1、尝试一下采集百度贴吧,css选择器只用a,匹配了页面所有超链接,是猫是狗都出来了。2、看一下正常需要采集链接的格式:http://baiyeyingxiao.com/p/7014123237http://baiyeyingxiao.com/p/7016345708http://baiyeyingxiao.com/p/7016647...
-
网站采集神器:采集列表页链接方法
2022/07/22网站采集神器热度(154)
采集链接方法1:css采集在css选择器中基本表示用法:class值,用.表示,比如.post-titleid值,用#表示,比如#main元素标签直接用标签名表示,比如h1标签,就是h1更多用法详见:css选择器参考手册定位元素几种简单方法:父元素选择器+空格+子元素选择器比如:#main.post-title,#main.entryh...