可自动创建该分类,也可通过分类映射将目标分类与当前网站内容分类进行合并。无需为每个类别建立一个采集任务。
5、采集规则设定简单易懂,程序具有2种运行方式,前台运行或后台定时运行。
6、可实现多级网页深度的采集,比如内容分页、部分信息在另外的页面、小说连载等类型的有主从表关联的信息采集。
7、独创的断点续采,目标网站有更新,采集程序才进行采集,仅采集更新的部分,效率高。 此功能对采集连载性质的网站特别有用,比如连载小说、连续剧等。
8、自动下载相关的外部文件到本地服务器或替换为远程路径,比如图片、FLASH、下载文件等,无需再手工上传到服务器。
9、支持采集模型的定义,可根据需要定义任意要采集的数据项,每个模型还可包含子模型。
10、自动识别绝大多数采集站的网页编码。比如常见的:GB2312,GBK,UTF-8,windows-1252,iso646-us等。
11、支持从列表页采集缩略图及其他附加信息。
12、多线程异步采集,采集效率高,占用服务器资源较低。
游客
非常好 2009-11-22