博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
有几个开源的字比较工具
阅读量:7087 次
发布时间:2019-06-28

本文共 1986 字,大约阅读时间需要 6 分钟。

  我们收集了一些信息。和学生在一起的简单测试,例如下面的摘要。

字工作  具

      特点

  

支持语言

    原理

词典及扩展性

StandardAnalyzer

中文、英文(unicode

中文:单字符切分

英文:依据空格切分

ChineseAnalyzer

中文,不支持中文和英文及数字混合的文本分词 

按字分词,StandardAnalyzer对中文的分词没有大的差别

CJKAnalyzer

中文,英文。不支持中文和英文及数字混合的文本分词 

採用的双字切分,也就是对一段文字按每两个字来进行切分 

IKAnalyzer

英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符

正向迭代最细粒度切分算法(词典+文法分析)

收录27万中文词汇,

支持用户词典扩展定义、支持自己定义停止词

paoding

中文

支持不限制个数的用户自己定义词库

MMAnalyzer

支持英文、数字、中文(简体)混合分词

正向最大匹配算法

支持动态扩展

MMSeg4j 

中文,包含一些字符的处理 英文、俄文、希腊、数字(包含)的分出一连串的。眼下版本号没有处理小数字问题 

用 Chih-Hao Tsai 的 MMSeg 算法MMSeg 算法有两种分词方法:SimpleComplex,都是基于正向最大匹配。在complex基础上实现了最多分词(max-word)   

强制使用 UTF-8)

使用sougou词库,也可自己定义覆盖

imdict

中文、英文、数字

隐马尔科夫模型

coredict核心字典、bigramdict词典。不含人名、地名词典。

不支持自己定义词典

分词工具

 

特点

速度

文档完整性

大小

Lucene版本号

备注

StandardAnalyzer

ChineseAnalyzer

Lucene contrib中附带的分析器

CJKAnalyzer

Lucene contrib中附带的二元分词

IKAnalyzer

3.2.8

83 万字/秒(1600KB/S

具体

2.62MB

Lucene2.9

Lucene3.0

支持细粒度和最大词长两种切分模式

paoding

100万字/

差点儿无

1.3MB

Lucene3.0

MMAnalyzer

第一次分词须要12秒(读取词典),之后速度基本与Lucene自带分词持平 

原始站点已经找不到下载不提供维护和支持

内存消耗30M+

lucene 1.92.4之间 

MMSeg4j 

complex 1200kb/s左右, simple 1900kb/s左右 

MMSeg 算法是英文的。但原理比較简单。实现也比較清晰。

内存开销了50M左右 

mmseg4j 1.8.3 仅仅支持 lucene 2.9/3.0 接口 。mmseg4j 1.8.5 支持 lucene 3.1

imdict

259517/

较全

词典大小7.26MB

Lucene2.9直接收录

分词效果演示:

消歧义效果:

分词工具

    效果

张三买了张三角桌

南京市长江大桥

StandardAnalyzer

|||||||

||||||

ChineseAnalyzer

|||||||

||||||

CJKAnalyzer

张三|三买|买了|了张|张三|三角|角桌

南京|京市|市长|长江|江大|大桥

IK

Analyzer

最大词长

张三|买了|张三|三角|

南京市|市长|长江大桥

最细粒度

张三||买了|张三|三角|||

南京市|南京|市长|长江大桥|长江|大桥

paoding

张三|买了|张三|三角|  桌  

|南京|南京市||市长|长江|大 |大桥  

MMAnalyzer

张三|买了|张三角|

南京市|长江大桥

MMSeg4j 

SimpleSeg

张三|买了|张三||

南京市|长江大桥

ComplexSeg

张三|买了|张三||

南京市|长江大桥

imdict

||||||三角|

南京市|长江|大桥

数字、英文混合分词效果:

分词工具

        效果

我的QQ号是******

StandardAnalyzer

||qq|||******

ChineseAnalyzer

||qq||

CJKAnalyzer

我的|qq|||******

IKAnalyzer

IK

||qq|||******

MIK

||qq|||******

MMAnalyzer

我的|qq|||******

MMSeg4j 

SimpleSeg

我的|qq|||******

ComplexSeg

我的|qq|||******

paoding

|qq||****** 

Imdict

||qq|号码|******

转载地址:http://vhyql.baihongyu.com/

你可能感兴趣的文章
让Spark成为你的瑞士军刀
查看>>
[LeetCode]--40. Combination Sum II
查看>>
ART世界探险(16) - 快速编译器下的方法编译
查看>>
多线程常用方法 sleep wait join等以及对锁的控制
查看>>
MPEG-DASH新功能白皮书翻译
查看>>
关于图片在内存中的大小(k或者M)
查看>>
2018 一份"有点难"的iOS面试题(5年iOS开发)
查看>>
linux mint19-日常使用笔记
查看>>
如何快速掌握一个ui框架
查看>>
git过滤
查看>>
web开发安全框架中的Apache Shiro的应用
查看>>
赵童鞋带你入门PHP(一) 开发环境搭建
查看>>
JavaScript 七大继承全解析
查看>>
nginx正则表达式(上篇)
查看>>
Spark入门(六)--Spark的combineByKey、sortBykey
查看>>
一款Android图文识别与扫描软件
查看>>
封装的前端常用工具函数
查看>>
好程序员web前端教程:对象
查看>>
算法排序篇——选择排序与插入排序
查看>>
浮动 二 文字围绕现象 (上)
查看>>