昨天刚知道帝国还可以使用正则来过滤,高兴B了!
放一个帝国的万能过滤码,再根据自已的需要添加就行了!可以过滤大部分代码了,如果需要再细化,则在这个的基础上添加上去就可,
目前这样,
可以防止采集后模反跑格, 防止内容内有别的网站的连接, 防止GG广告,防止潜入式页面, 防止表单,防止表格等等,
使用方法:直接复制后,放到采集的内容过滤框框内既可!
自已慢慢摸索吧!
<a([^>]*)>,<A([^>]*)>,</a>,</A>,<DIV([^>]*)>,</DIV>,<div([^>]*)>,</div>,<DIV>,<div>,<script[!--ad--]</script>,<form[!--ad--]</form>,<iframe[!--ad--]</iframe>,<IFRAME[!--ad--]</IFRAME>,<OBJECT[!--ad--]</OBJECT>,<object[!--ad--]</object>,<table([^>]*)>,<table>,</table>,<tr([^>]*)>,<tr>,</tr>,<td([^>]*)>,<td>,</td>,<font([^>]*)>,<font>,</font>,<tbody>,<tbody([^>]*)>,</tbody>,<style[!--ad--]</style>,<span([^>]*)>,</span>
|
|
|
|