您的位置 : 首页 > 生活 >

HanLP自然语言处理包特性总结

HanLP 能够提供自然语言处理,中文分词,词性标注,命名实体识别,依存句法分析,关键词提取,自动摘http://www.hbxjsc.com/bf4d/3eb94308e68b.html要,短语提取,拼音,简繁转换等特性。本文主要http://www.hbxjsc.com/4d62/cd854ac50887.html是 HanLP 的入门介绍篇。

HanLP 全称是Han Language Processing,中文为:汉语言处理包。

HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

HanLP提供下列功能:

中文分词 词性标注 命名实体识别 关键词提取 自动摘要 短语提取 拼http://www.hbxjsc.com/46a8/6d217b93f8c2.html音转换 简繁转换 文本推荐 依存句法分析 语料库工具

其中中文分词有6种处理算法:

最短路分词 N-最短路分词 CRF分词 索引分词 极速词典分词 用户自定义词典

命名实体识别也有5中算法:

中国人名识别 音译人名识别 日本人名识别 地名识别 实体机构名识别

关键词提取主要算法是:TextRank关键词提取。自动摘要主要是TextRank自动摘要算法。还有基于互信息和左右信息熵的短语提取算法。http://www.hbxjsc.com/45b7/6dc4a96dd911.html

拼音转换方面有:

多音字 声母 韵母 声调

简繁转换

繁体中文分词 简繁分歧词(简体、繁体、臺灣正體、香港繁體)http://www.hbxjsc.com/a822/421c07117833.html

文本推荐

语义推荐 拼音推荐 字词推荐

依存句法分析

基于神经网络的高性能依存句法分析器 MaxEnt依存句法http://www.hbxjsc.com/2373/448f3ec6cba6.html分析 CRF依存句法分析

语料库工具

分词语料预处理 http://www.hbxjsc.com/e341/f6c812b41847.html 词频词性词典制作 BiGram统计 http://www.hbxjsc.com/c6b5/0bf911f32494.html词共现统计 CoNLL语料预处理 CoNLL UA/LA/DA评测工具

目前 HanLP 汉语言处理包在 github 上开源以来,累计 star 已快突破5000了。在提供丰富功能的同时,HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态http://www.hbxjsc.com/168e/54e110c5f74b.html提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训http://www.hbxjsc.com/843b/b9a757521c68.html练自己的模型。

上一篇:SpringMVC+Mybatis+shiro+Lucene+druid(CODE大全)java博客系统源码下载 下一篇:没有了