素材abc - WWW.SUCAIABC.COM - psd素材 - 高清图片素材免费下载!
素材ABC > 教程 > 技术教程 > 详细内容

假如需要采集的网站有2种页面格式火车头该如何编写规则呢?

时间:2019-11-12 17:46所属栏目: 技术教程来源:未知 热度:

查看页面源代码发现“地址”的页面源代码是不同的如下:

假如需要采集的网站有2种页面格式火车头该如何编写规则呢?

另一种是:

假如需要采集的网站有2种页面格式火车头该如何编写规则呢?

那么像这样的情况在采集器里面如何设置呢,看下图

假如需要采集的网站有2种页面格式火车头该如何编写规则呢?

如上图可以选择正则提取,然后匹配的内容写成:(第一种情况开始字符串|第二种情况开始字符串)(?<content>[sS]*?)(第一种情况结束字符串|第二种情况结束字符串),2种情况之间用

“|”隔开,就上面说的网址采集规则设置如下图:

 

 

假如需要采集的网站有2种页面格式火车头该如何编写规则呢?

这样就可以适用于2种不同的页码源代码了,当然这些也只能处理2种不同的,如果有很多种就只能每种情况写一个规则了

本文标签: