登录 | 注册 | 购书 New!
卓越网购书 当当网购书 京东网购书
| 铃声下载 | PDF电子书下载 | DVD/CD媒体下载 | 绿色软件下载 | 最新源码 | 今天最热门 | 加入收藏 | 繁體中文 
首页 ASP源码 PHP源码 DotNET源码 JSP源码 CGI源码 FLASH源码 VB源码 VC源码 PB源码 Delphi源码 编程相关 设计方案 网页模板

开源中文分词系统 HTTPCWS 1.0.0 PHP演示程序

  • 源码作者:佚名
  • 源码大小:32.72 MB
  • 源码类别:PHP源码
  • 源码格式:完整源码
  • 发布时间:Oct 10, 2010 10:01:00 PM
  • 源码级别:
  • 下载总计:月:15 总:1249

源码简介:

什么是 httpcws ?
HTTPCWS 是一款基于HTTP协议的开源中文分词系统,目前仅支持Linux系统。HTTPCWS 使用“ICTCLAS 3.0 2009共享版中文分词算法”的API进行分词处理,得出分词结果。HTTPCWS 将取代本人之前开发的 PHPCWS 中文分词扩展。

ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)是中国科学院计算技术研究所在多年研究工作积累的基础上,基于多层隐马模型研制出的汉语词法分析系统,主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。ICTCLAS经过五年精心打造,内核升级6次,目前已经升级到了ICTCLAS3.0,分词精度98.45%,各种词典数据压缩后不到3M。ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名,是当前世界上最好的汉语词法分析器。

ICTCLAS 3.0 商业版是收费的,而免费提供的 ICTCLAS 3.0 共享版不开源,词库是根据人民日报一个月的语料得出的,很多词语不存在。所以本人补充的一个19万条词语的自定义词库,对ICTCLAS分词结果进行合并处理,输出最终分词结果。

由于 ICTCLAS 3.0 2009 共享版只支持GBK编码,因此,如果是UTF-8编码的字符串,可以先用iconv函数转换成GBK编码,再用httpcws进行分词处理,最后转换回UTF-8编码。

HTTPCWS 软件自身(包括httpcws.cpp源文件、dict/httpcws_dict.txt自定义词库)采用NewBSD开源协议,可以自由修改。HTTPCWS 使用的 ICTCLAS 共享版 API 及 dict/Data/ 目录内的语料库,版权及著作权归中国科学院计算技术研究所、ictclas.org所有,使用需遵循其相关协议。

开源中文分词系统 HTTPCWS 1.0.0 32位版下载地址:http://www.codepub.com/software/HTTPCWS-16206.html

开源中文分词系统 HTTPCWS 1.0.0 64位版下载地址:http://www.codepub.com/software/HTTPCWS-16207.html

上一源码: 火车采集器

重要事项Attentions

  • 本站所有源码都经过我们亲自检查,杀毒,确保每个源码都能正常运行.
  • 为了保证您快速的下载,推荐使用[网际快车]或[迅雷]等专业工具下载.
  • 本站无限制人数下载!如果您发现该源码不能下载,请通知管理员.或先看看下载教程.
  • 为确保所下源码能正常使用,请使用[WinRAR v3.70]或以上版本解压本站源码.
  • 如果你下载的源码是7z,gz格式的话,请安装该类型的解压软件。
  • 站内源码包含整站及企业源码均由网上搜集,若无意中侵犯到您的权利,敬请来信联系我们.
  • 如果需要解压密码的话,解压密码就是:code.anysafer.com