首发于 磐创AI
干货 | 史上最全中文分词工具整理

干货 | 史上最全中文分词工具整理

作者 | fendouai

【磐创AI导读】:本文为中文分词工具整理分享。


一.中文分词


分词服务接口列表




二.准确率评测:

THULAC:与代表性分词软件的性能对比


我们选择LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评(The SecondInternational Chinese Word Segmentation Bakeoff)发布的国际中文分词测评标准,对不同软件进行了速度和准确率测试。

在第二届国际汉语分词测评中,共有四家单位提供的测试语料(Academia Sinica、 City University 、Peking University 、MicrosoftResearch), 在评测提供的资源icwb2-data中包含了来自这四家单位的训练集(training)、测试集(testing), 以及根据各自分词标准而提供的相应测试集的标准答案(icwb2-data/scripts/gold).在icwb2-data/scripts目录下含有对分词进行自动评分的perl脚本score。

我们在统一测试环境下,对上述流行分词软件和THULAC进行了测试,使用的模型为各分词软件自带模型。THULAC使用的是随软件提供的简单模型Model_1。评测环境为 Intel Core i5 2.4 GHz 评测结果如下:


评测结果1



除了以上在标准测试集上的评测,我们也对各个分词工具在大数据上的速度进行了评测,结果如下:


CNKI_journal.txt(51 MB)


评测结果2



分词数据准备及评测由BosonNLP完成:11 款开放中文分词引擎大比拼(2015年发布)

分词的客观量化测试离不开标注数据,即人工所准备的分词“标准答案”。在数据源方面,我们将测试分为: 1.新闻数据:140篇,共30517词语; 2.微博数据:200篇,共12962词语; 3.汽车论坛数据(汽车之家)100篇:共27452词语; 4.餐饮点评数据(大众点评):100条,共8295词语。

准确度计算规则:

将所有标点符号去除,不做比较

参与测试的部分系统进行了实体识别,可能造成词语认定的不统一。我们将对应位置替换成了人工标注的结果,得到准确率估算的上界。

经过以上处理,用SIGHAN 分词评分脚本比较得到最终的准确率,召回率和F1值。

以上所有数据采用北大现代汉语基本加工规范对所有数据进行分词作为标准。具体数据下载地址请参见附录。通过这四类数据综合对比不同分词系统的分词准确度。


不同分词系统的分词准确度对比



三.付费价格:

阿里云:


阿里云付费价格



腾讯云:


腾讯云付费价格



玻森中文

免费额度:


玻森中文免费额度



付费价格:


玻森中文付费价格



四.官网

开源工具

HanLP:

github.com/hankcs/HanLP

结巴分词:

github.com/fxsjy/jieba

盘古分词:

pangusegment.codeplex.com

庖丁解牛:

code.google.com/p/paodi

SCWS中文分词:

xunsearch.com/scws/docs

高校工具

FudanNLP:

github.com/FudanNLP/fnl

LTP:

ltp-cloud.com/document

THULAC:

thulac.thunlp.org/

NLPIR:

ictclas.nlpir.org/docs

商业服务

BosonNLP:

bosonnlp.com/dev/center

百度NLP:

cloud.baidu.com/doc/NLP

搜狗分词:

sogou.com/labs/webservi

腾讯文智:

cloud.tencent.com/docum

腾讯价格单:

cloud.tencent.com/docum

阿里云NLP:

data.aliyun.com/product

新浪云:

sinacloud.com/doc/sae/p

测试数据集

1、SIGHANBakeoff 2005 MSR, 560KB

sighan.cs.uchicago.edu/

2、SIGHANBakeoff 2005 PKU, 510KB

sighan.cs.uchicago.edu/

3、人民日报 2014,65MB

pan.baidu.com/s/1hq3KKX

前两个数据集是SIGHAN于2005年组织的中文分词比赛所用的数据集,也是学术界测试分词工具的标准数据集,本文用于测试各大分词工具的准确性,而最后一个数据集规模较大,用于测试分词速度。


最后,对深度学习感兴趣,热爱Tensorflow的小伙伴,欢迎关注我们的网站! http://www.tensorflownews.com。我们:磐创AI。

玻璃钢生产厂家安顺玻璃钢沙发定制淮南玻璃钢装饰工程定制广东玻璃钢坐凳制作阳泉玻璃钢花池哪家好自贡玻璃钢花钵制造重庆玻璃钢花盆定做杭州玻璃钢种植池厂家直销舟山玻璃钢树池坐凳定做莱芜玻璃钢天花吊顶衡阳玻璃钢景观雕塑定做朝阳玻璃钢座椅价格台州玻璃钢茶几厂临汾玻璃钢装饰工程公司绵阳玻璃钢动物雕塑生产厂家黑河玻璃钢沙发哪家好陕西玻璃钢景观雕塑加工铜川玻璃钢医疗外壳渭南玻璃钢垃圾桶厂家乐山玻璃钢休闲椅厂家直销衡水商业美陈公司四平玻璃钢人物雕塑多少钱赣州玻璃钢花钵批发普洱玻璃钢树池制造大同玻璃钢树池厂家直销保山玻璃钢机械外壳批发玉林玻璃钢浮雕定做鹤壁玻璃钢花槽公司澳门玻璃钢人物雕塑厂家萍乡玻璃钢花箱生产厂家莱芜玻璃钢垃圾桶厂家直销香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化