1. 使用本系统经过简单的设置,能在他人网站上采集新闻文章类数据到本地服务器,支持Access和SQL Server数据库
2. 『文章表主键』只支持自动编号,非自动编号如果需要可以提供技术支持
3. 在『系统配置』里面按文字说明进行设置
特别说明:
<1> 『文章类别字段名』与『文章类别HTML代码』是相关的。『文章类别HTML代码』是指在贵网站后台取得的
文章类别HTML代码,此处标签名称一定要是『文章类别字段名』,标签名称请使用规范HTML语言 “属性="xx"”
形式,请为每个表单标签域名写上ID,以下涉及HTML代码同
<2> 『扩展字段』与『扩展HTML代码』是相关的。这是在『增加项目』的时候显示的供填写的表单标签域名,
这些表单值将直接在贵站数据库里面贮存。
『扩展字段』格式:字段说明|字段名称|字段数据类型(text\bit\int\datetime)|是否可以为空(true/false)|标签
『字段说明』只是起标识作用
『字段名称』一定要是在贵站数据库里面文章表的字段名称
『字段数据类型』有四种text\bit\int\datetime 选择
『是否可以为空(true/false)』是在添加项目的时候如果不能为空的表单域为空的话,将不能继续进行项目设置
『标签』是『扩展HTML代码』里面的表单标签,如果标签是input 用括号把类型写上
示例:『扩展字段』填写“点击次数|hits|int|true|input(text)”
那么『扩展HTML代码』必须填写<input name="hits" id="hits" type="text" size="20" />
其中hits必须是贵站数据库里面的数字类字段名称
<3> 『替换网址』功能是把采集的文章内容进行分析,替换其中的相对网址为绝对网址,以便采集到本地能正常显示
如果『获取远程文件』,则必须先在这里进行网址替换
如果采集的文章有<base>标签,则本系统所有替换网址功能 将失效
格式:标签|属性
示例:img|src 是指替换img标签的src属性值的网址
<4> 『是否保存成功日志』如果选择此选项,则采集成功将记录在本系统数据库,并且能够对贵站数据库采集成功的数据
进行数据采集反操作,既删除操作,还可以对采集在贵站数据库的数据进行查看
<5> 『管理员表』指本系统管理员管理表,在这里更改,将自动在本系统数据库进行更改
<6> 『管理员超时时间』是指本系统在不刷新的情况下的最大离线时间,这里不仅仅是Session.Timeout的时间,本系统具备
严格的超时机制
<7> 『系统数据库路径』是指本系统的数据库路径,更改此路径,如果本系统文件夹具备完全的操作权限,将自动更改
数据库文件位置,并支持自动创建文件夹,自动替换conn.asp文件数据库路径
如果本系统文件夹不具备完全的操作权限,请手动数据库文件位置,更改conn.asp文件数据库路径
<8> 『获取远程文件存放根文件夹』这里是所有项目的 获取远程文件 存放的文件夹
本系统远程文件存放位置是:『获取远程文件存放根文件夹』/项目ID/存贮文件夹(『自动获取远程文件』里面设置)
<9> 『获取远程文件替换网址形式』一共四个选项,是指替换采集内容的远程文件网址
<10> 『自动获取远程文件』这是对获取远程文件进行归类设置,理论上支持无限分类设置
在『增加』按钮增加归类
『清除』将清除所有
4. 『索引管理』是指获取的文章网址和标题,其中标题是列表索引中的标题,这里所有文章只是保存在本系统的数据库里面
并没有正式录入到贵站数据库,在这里可以对获取的文章进行查看,对无用文章进行过滤删除操作,对有用文章将在这里
开始正式采集到贵站数据库
点击『标题』链接可以测试在『增加项目』第三步设置的标题开始结束标记和内容开始结束标记是否设置成功
『状态』显示采集的状态(未生成/成功/失败)
点击『成功』链接可以查看本文章在贵站数据库的数据
『失败』可以查看失败原因
『每页生成数量』和『 每页生成时间间隔(s)』在这里特别的重要
(1)可以防止程序运行超时
(2)减轻对获取数据的服务器负担
这里设置的原则是『每页生成数量』尽可能少,『 每页生成时间间隔(s)』尽可能大
本系统主要对服务器的攻击性体现在这里,请大家获取数据的时候按原则设置
在搜索那里『分页』勾选将对项目列表索引进行查看删除管理
5. 『增加过滤』是指对采集的内容进行无限量的替换删除操作
6. 『增加标签』是指在增加项目的第三步设置标题和内容开始结束标记的时候增加扩展的获取内容
系统默认的只有『标题』和『内容』两项录入贵站数据库,如果你需要采集更多的选项,那么可以在这里进行设置
比如你除了想采集『标题』和『内容』之外还想采集文章来源,那么可以在这里设置
字段名称是指贵站数据库文章表 文章来源 的字段名称,字段类型选择text
标签名称只在本系统起标识作用
7. 『重置数据库』将对本系统数据库所有涉及项目的的表进行删除重建操作,原因是所有表都是自动编号,随着采集记录的增加
ID号将增大,执行此操作将所有ID恢复
8. 『日志管理』是对采集成功的文章进行记录,主要目的是能对采集在贵站数据库的数据进行反操作,既是删除操作
执行『重置数据库』将删除此记录
游客
非常好 2009-11-22