位置:采集 >
管理节点
> 修改节点
基本信息
节点名称:
(如:体育,娱乐等)
父节点:
新建父节点
|-帝国软件 - java栏目
|-采集实例
采集页面地址:
(一行为一个列表)
采集页面为直接内容页
http://www.phome.net/tmp/cjpage/list.html
采集页面地址方式二:
(此方式,系统自动生成页面地址)
地址:
(分页变量用
替换)
页码从
到
之间,间隔倍数
倒序
补零
(如:http://www.phome.net/index.php?page=[page])
内容页地址前缀:
(如地址前面没域名的话,系统会加上此前缀)
图片/FLASH地址前缀(内容):
(图片地址为相对地址时使用)
入库栏目:
选择栏目
|-新闻中心
|-国内新闻
|-国际新闻
|-娱乐新闻
|-体育新闻
|-下载中心
|-影视频道
|-网上商城
|-FLASH频道
|-图片频道
|-文章中心
|-分类信息
|-房屋信息
|-跳蚤市场
|-同城生活
|-求职招聘
(如本节点不是采集节点,请不选)
入库专题:
开始时间:
(格式:2007-11-01)
结束时间:
(格式:2007-11-01)
备注:
选项
默认相关关键字:
截取标题前
个字
采集记录数:
采集前
条记录
("0"为不限,系统会从头采到页面尾)
远程保存图片到本地(内容):
(入库时才会保存,
加水印
)
远程保存FLASH到本地(内容):
(入库时才会保存)
标题图片设置:
取第
张图片为标题图片(
生成缩略图:宽度
×高度
)
每组列表采集个数:
每组采集
个列表页
(防止采集超时)
每组信息采集个数:
每组采集
个信息页
(防止采集超时)
每组入库数:
每组入
条记录
(防止入库超时)
每组采集时间间隔
秒
(0为连续采集)
附加选项
页面编码转换
正常编码
UTF8->GB2312
BIG5->GB2312
UNICODE->GB2312
是否重复采集同一链接
重复采集
(不选为不重复采集)
是否隐藏已导入的信息
是
否
采集后自动入库
是,
直接审核
(不推荐选择,因为可能入库超时)
入库后自动删除已导入的信息记录
整体页面过滤正则
格式:广告开始[!--pad--]广告结束
IFRAME
TABLE
FORM
OBJECT
TR
TBODY
SCRIPT
TD
STYLE
A
DIV
FONT
SPAN
IMG
(多个请用","格开)
整体页面替换
将
替换成
(原字符多个请用","格开,如果是新字符是多个,可以用","格开,系统会对应替换)
过滤选项
采集关键字(包含关键字才会采):
(只针对标题。如不限制,请留空。多个请用","格开)
替换:
(针对标题与内容)
将
替换成
(原字符多个请用","格开,如果是新字符是多个,可以用","格开,系统会对应替换)
过滤广告正则:
格式:广告开始[!--ad--]广告结束
(针对内容)
IFRAME
TABLE
FORM
OBJECT
TR
TBODY
SCRIPT
TD
STYLE
A
DIV
FONT
SPAN
IMG
(多个请用","格开)
内容为空不采集
是
(newstext字段)
过滤相似:
不采集标题相似超过
字的信息[与入库信息比较]
(如不限制请填"0")
不采集标题完全相同的信息(与入库信息比较)
截取内容简介:
截取信息内容
个字
(在没有设置“内容简介”正则,系统采取的措施)
采集内容正则(不采集项,请留空)
列表页
信息链接区域正则:
(
如不限,请为空
)
截取的地方加上
如:<tr><td>链接区域</td></tr>
正则就是:
<tr><td>[!--smallurl--]</td></tr>
信息页链接正则:
截取的地方加上
如:<a href="信息链接">标题</a>
正则就是:
<a href="[!--newsurl--]">*</a>
<td>·<a href="[!--newsurl--]"
标题图片正则:
(如图片在内容页,请留空)
图片地址前缀:
保存本地
(如填这里,将为此字段值)
内容页(文件过大的请不要选择保存本地)
标题正则:
(
)
<div align="center"><strong>[!--title--]</strong>
(如填写这里,将为字段的值)
副标题正则:
(
)
(如填写这里,将为字段的值)
发布时间正则:
(
)
(如填写这里,将为字段的值)
标题图片正则:
(
)
附件前缀
远程保存
(如填写这里,这就是字段的值)
内容简介正则:
(
)
(如填写这里,将为字段的值)
作者正则:
(
)
(如填写这里,将为字段的值)
信息来源正则:
(
)
(如填写这里,将为字段的值)
新闻正文正则:
(
)
<td height="50" bgcolor="#CCCCCC">[!--newstext--]</td>
(如填写这里,将为字段的值)
内容页分页采集设置:(如没有分页请留空,只对newstext有效)
入库是否保留原分页:
保留分页
不保留分页
分页形式:
上下页导航式
全部列出式
"全部列出"式正则设置:
分页区域正则(
[!--smallpageallzz--]
)
分页链接正则(
[!--pageallzz--]
)
"上下页导航"式正则设置:
分页区域正则(
[!--smallpagezz--]
)
分页链接正则(
[!--pagezz--]
)
注意事项:
1.*:表示不限制内容。行与行之间的间隔最好用*格开
2.增加节点后,最好先“预览”。
3.对于特殊字符请在前面加上“\\”,当然直接将特殊字符改为“*”最合适了。特殊字符如下:
),(,{,},[,],\,?
4.同一信息链接系统不会重复采集。