中文分词

汉语在线分词,有哪些网站或者工具可以直接看分词效果?

目前汉语分词工具有很多,想选择其中一个结合solr使用,不过针对分词效果,有哪些工具或者网站可以直接的在线观看呢?目前看到一个蓝牛在线工具提供的han…
关注者
37
被浏览
79,378

5 个回答

国内的大数据中文分词工具比较多,但大部分都是近几年出现的大数据技术,而词频统计是中文分词中比较重要的功能,通过对国内几家主流中文分词工具产品的试用,下面为大家推荐几款中文分词工具:

一、NLPIR大数据语义智能分析平台(原ICTCLAS)是北京理工大学大数据搜索与挖掘实验室张华平主任研发,针对大数据内容采编挖搜的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的最新研究成果,先后历时近二十年的不断创新。平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。

NLPIR大数据语义智能分析平台十三大功能:

NLPIR大数据语义智能分析平台客户端

1、精准采集:对境内外互联网海量信息实时精准采集,有主题采集(按照信息需求的主题采集)与站点采集两种模式(给定网址列表的站内定点采集功能)。

2、文档转化:对doc、excel、pdf与ppt等多种主流文档格式,进行文本信息转化,效率达到大数据处理的要求。

3、新词发现:从文本中挖掘出新词、新概念,用户可以用于专业词典的编撰,还可以进一步编辑标注,导入分词词典中,提高分词系统的准确度,并适应新的语言变化。

4、批量分词:对原始语料进行分词,自动识别人名地名机构名等未登录词,新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。

5、语言统计:针对切分标注结果,系统可以自动地进行一元词频统计、二元词语转移概率统计。针对常用的术语,会自动给出相应的英文解释。

6、文本聚类:能够从大规模数据中自动分析出热点事件,并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。

7、文本分类:根据规则或训练的方法对大量文本进行分类,可用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面。

8、摘要实体:对单篇或多篇文章,自动提炼出内容摘要,抽取人名、地名、机构名、时间及主题关键词;方便用户快速浏览文本内容。

9、智能过滤:对文本内容的语义智能过滤审查,内置国内最全词库,智能识别多种变种:形变、音变、繁简等多种变形,语义精准排歧。

10、情感分析:针对事先指定的分析对象,系统自动分析海量文档的情感倾向:情感极性及情感值测量,并在原文中给出正负面的得分和句子样例。

11、文档去重:快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录,同时找出所有的重复记录。

12、全文检索:支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。

13、编码转换:自动识别内容的编码,并把编码统一转换为其他编码。

二、哈工大语言云(LTP)

中文的语义分析工具,大多数都像LTP这样,提供一个在线的分析器,一组API,比较简单稳定的功能.LTP是其中做得比较好的.

它提供了中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等等功能.但对于进一步语义方面的深入的开发,需要进一步完善,而且需要连网使用,速度和处理数量上都有一些限制.

三、同义词词林

《同义词词林》是80年代出版的一本词典,这提供了词的归类,相关性信息,起始主要用于翻译,哈工大对它进行了细化和扩充,出了《词林扩展版》,其中含有7万多词,17000多种语义,五层编码.12大类,94中类,1428小类,形如:

Aa01A01= 人 士 人物 人士 人氏 人选

每一个条目对应一种语义,根据分类编号:第一位大写表示大类,第二位小写表示中类…其中涉及了一词多义和一义多词.

《词林扩展版》网上的下载很多,大小不到1M,可以直接load到程序中,用于简单的分词,文章分类,模糊查找,统计,情感分析(不同感情色彩对应不同类别号)等等.

四、 结巴分词

结巴是一个Python的中文分词组件.它提供了分词和词性标注功能.能在本地自由使用, 是Python实现的, 可以很好的和其它Python工具相结合,使用方法如下:

执行结果是:

Full Mode: 我/ 爱/ 北京/ 天安/ 天安门

我 r

爱 v

北京 ns

天安门 ns

另外,这一领域已经有几十年的历史了,学习时尽可能利用现有工具,把精力集中在目标而非具体过程.多参考人家都实现了什么功能,人家的数据是怎么组织的.

编辑于 2019-01-03 09:34

讨论中文分词工具的时候,其实是有两群人:一群是找合适的分词工具,做内容分析或者其他文本相关的研究;另一群人是软件开发者,想把中文分词技术产品集成到自己的软件中。在我的专栏中都有多篇文章讨论这两方面。

《 毕业论文写什么——微博数据挖掘相关的论文》,以一个具体的分析目的为例,展示了使用中文分词、主题分析、共词分析等相关技术能产生的分析结果

《用PPT自带的Pro Word Cloud制作中文词云》,可以发现我们常用的Office软件其实有很多强大的功能,例如分词和词云图展示功能

《利用GooSeeker分词、Ucient和NetDraw进行社会网络分析》,共词分析和社会网络分析是比较常见的分析,这篇文章展示了几个软件配合使用的方法。

在分词和自然语言处理技术方面,专栏中一系列学习笔记和知识图谱,供大家参考。

发布于 2020-09-25 15:16

国内外的工具用了不少,最中意的也就一两个,如果说适用于中文在线分词的,力挺“ 微词云·在线分词工具”,很用心的一款在线智能分词产品。

中分在线分词工具

微词云_在线词频统计分析工具_词云图生成器


我抓取了“李雪琴高考前的高考应援短片”的222条评论,并用微词云进行文本分词、词频分析。

文本分词与分析使用流程

1.文本上传自动分词、词频统计

2.词结果下载与筛词过滤

3.生成报告与语义分析


第一步:

首先我【上传】了抓去的评论txt文本,为了让分词量最大,我(1)取消了【单字】、(2)【未知词】和(3)单词提取量设置全部、以及我还设置了希望分出来的单词(4)【自定义词典】功能 也可以完全使用系统推荐的配置,我是要进一步词频分析做好准备的



自定义词典功能


第二步:


配置完成,我点击右上角的【下一步】,进入到【筛词页面】

1)如果不想过滤掉低频词,可以把左侧底部的【忽略词频】取消勾选,一定点击旁边的【提交】按钮

2)一般系统会自动帮你勾选了一部分重要的词性和关键词

3)为了防止数据的丢失,可以提前下载分词后的结构,点击右上角的【下载分词结果】

4)我们可以开始筛词了,根据词性可以勾选需要的单词。

5)还可以通过搜索单词的方式进行筛词,【搜索功能】在右侧的顶部



第三步:


筛选完单词,点击右下角的【确定使用所选单词,并生成报告】,开始进入报告页面了。

主要根据所选关键词得出的文本分析报告

1)左侧是文本【统计信息】和【词性占比】饼状图;右侧是单词【词频列表】和【搜索单词】功能


2)下面是词频图可视化,右上角提供了【美化词云图】功能

点击美化词云图进入到微词云的编辑器中


3)点击词频图中的任意单词可查看单词所在文本中的位置

例如查看“出国”这个单词,指:出国读书、出国名额、出国意外

查看词频列表中的第二个高频词“决定”指:决定与人生的关系。

4)右侧的词云图是查看单词所在句子中的其他关键词,这就是关键词的相关性‘

在决定所在的句子中,高考、一生、人生关键词出现频次最多。


5)top高频词相关性可视化,“高考、决定、人生、自己“


6)词性占比图


我们可以在点击第二步回到筛词页面,还可以通过不同纬度的词进行分析语义。例如正面词分析

其中积极词汇占比5%,共62个

积极单词有:加油、高考加油、成功...


其中消极词汇占比2%,共25个


这次李雪琴高考应援短片,大部分评论都是积极向上的。

本次也只是抛砖引玉,很多细节没有具体分析到,希望推荐的 “微词云分词工具”可以帮助大家快速进行文本分词和分析。

发布于 2021-07-28 15:39

Analyzer在线工具,IK Analyzer-在线分词器工具

编辑于 2017-12-22 13:12

亚一爬 谢谢

pullword了解下

发布于 2020-09-25 21:40