最近打算做一站,需要采集些数据,google一翻,发现火车头最为流行,无奈本人早已不用windows系统,且此软件需收费
于是就有了这个系统,目前这个系统已经能工作,并能满足基本的采集需求,故提供出来大家分享,顺便吸取大家的宝贵建议
系统前期目标:复制火车头所有功能(由于是 php开发的web版,理论上跨平台)
请加入QQ群 4656272 ,随时关注本系统最新进展
数据库安装说明:
1.建立一个库 (假设为collect)
2.导入collect.sql文件,建立相关表
程序安装说明 (THINKPHP包在根目录)
1.把程序解压到网站根目录某目录下 (假设为collect)
2.修改/collect/WEB/Conf/config.php文件,把数据库相关设置好
3.运行 http://xxx/collect即可
已完成功能:
链接智能识别 (识别包括带http的链接,相对的链接,绝对的链接)
文本采集
内容分页采集
图片自动采集
文字自定义替换
自定义去除html相关标签
数据导出为sql
批量生成缩略图
开发中的功能
远程自动发布
登录采集(采集需登录的站)
图片打水印
游客
非常好 2009-11-22