节点名称: |
(比如:体育,娱乐等) |
父节点: |
|
采集页面地址:
(如是多个列表请用回车格开) |
|
采集页面地址方式二:
(此方式,系统自动生成页面地址) |
|
内容页地址前缀: |
(如地址前面没域名的话,系统会加上此前缀。如:http://www.phome.net+/news/2004/1.html) |
图片/FLASH地址前缀(内容): |
(图片地址为相对地址时使用) |
入库栏目: |
(如本节点不是采集节点,请不选) |
入库专题: |
专题1 专题2 专题3 |
开始时间: |
(格式:2004-04-01) |
结束时间: |
(格式:2004-04-01) |
备注: |
|
默认相关关键字: |
截取标题前
个字 |
采集记录数: |
采集前
条记录("0"为不限,系统会从头采到页面尾) |
远程保存图片到本地(内容): |
(入库时才会保存,
加水印) |
远程保存FLASH到本地(内容): |
(入库时才会保存) |
每组列表采集个数: |
每组采集
个列表页(防止采集超时用的,单采集页面请填0/1) |
每组信息采集个数: |
每组采集
个信息页(防止采集超时用的) |
每组入库数: |
每组入
条记录(防止入库超时用的) |
页面编码转换 |
正常编码
UTF-8 -> GBK(采集UTF-8的站选择,需要iconv函数支持) |
是否重复采集同一链接 |
重复采集(不选为不重复采集) |
是否隐藏已导入的信息 |
是
否 |
采集后自动入库 |
是,
直接审核(不推荐选择,因为可能入库超时) |
|
入库后自动删除已导入的信息 |
整体页面过滤正则
格式:广告开始[!--pad--]广告结束 |
(多个请用","格开) |
采集关键字(包含关键字才会采): |
(只针对标题。如不限制,请留空。多个请用","格开) |
替换:
(针对标题与内容) |
将
替换成
|
(原字符多个请用","格开,如果是新字符是多个,可以用","格开,系统会对应替换) |
过滤广告正则:
格式:广告开始[!--ad--]广告结束
(针对内容) |
(多个请用","格开) |
过滤相似: |
不采集标题相似超过
字的信息[与入库信息比较](如不限制请填"0") |
|
不采集标题完全相同的信息(与入库信息比较)
|
截取内容简介: |
截取信息内容
个字(在没有设置“内容简介”正则,系统采取的措施) |
列表页 |
|
信息链接区域正则:
(如不限,请为空)
截取的地方加上
如:<tr><td>链接区域</td></tr>
正则就是: <tr><td>[!--smallurl--]</td></tr> |
|
信息页链接正则:
截取的地方加上
如:<a href="信息链接">标题</a>
正则就是: <a href="[!--newsurl--]">*</a> |
|
标题图片正则:
(如图片在内容页,请留空)
|
|
内容页(文件过大的请不要选择保存本地) |
标题正则:
() |
|
副标题正则:
() |
|
发布时间正则:
() |
|
标题图片正则:
(
) |
|
内容简介正则:
() |
|
作者正则:
() |
|
信息来源正则:
() |
|
新闻正文正则:
() |
|
内容页分页采集设置:(如没有分页请留空,只对newstext有效) |
分页形式: |
上下页导航式
全部列出式 |
"上下页导航"式正则设置: |
分页区域正则([!--smallpagezz--]) |
分页链接正则([!--pagezz--]) |
|
|
|
"全部列出"式正则设置: |
分页区域正则([!--smallpageallzz--]) |
分页链接正则([!--pageallzz--]) |
|
|
|
|
*:表示不限制内容。行与行之间的间隔最好用*格开 |
|
|