自然语言处理hanlp的入门基础

  • 时间:
  • 浏览:3
  • 来源:uu快3下载网址_uu快3IOS下载_电脑版

此文挂接的基础是建立在hanlp较早版本的基础上的,随便说说hanlp的最新1.7版本肯能发布,但对于入门来说差别不大!分享一篇比较早的“旧文”给须要的你们!

快速上手

project/bin

#停用词词典路径

project/target/classes

3、配置文件

Web项目语录可不须要倒进如下位置:

root=/Users/hankcs/JavaProjects/HanLP/

说明HanLP.properties中的root项配置不对,应当加带后缀 data/,改为:

安装HanLP

root=usr/home/HanLP/

 

倒进classpath并加带依赖。

#Windows用户请注意,路径分隔符统一使用/

#人名词典路径

#本配置文件中的路径的根目录,根目录+不要 路径=绝对路径

对于IntelliJ IDEA来讲

#人名词典转移矩阵路径

2.肯能内存非常有限,请使用小词典。 HanLP 默认使用大词典,同時 提供小词典,请参考配置文件章节。

#另外data/dictionary/custom/CustomDictionary.txt是个高质量的词库,请暂且删除

[你好/vl, ,/w, 欢迎/v, 使用/v, HanLP/nx, !/w]

CoreSynonymDictionaryDictionaryPath=data/dictionary/synonym/CoreSynonym.txt

最后将HanLP.properties倒进classpath即可:

l 内存要求

第另另一一三个白Demo:

HanLP 几乎所有的功能都可不须要通过工具类 HanLP 快捷调用,当你想不起来调用辦法 时,只需键入 HanLP. ,IDE应当会给出提示,并展示HanLP完善的文档。

肯能经常突然出现了什么的难题,一般是由路径配置不对而引发的,请根据控制台输出的警告调整。比如:

3.在不要 句法分析场景中,须要加载几百兆的模型。肯能处在 java.lang.OutOfMemoryError ,则建议使用JVM option -Xms1g -Xmx1g -Xmn512m。

推荐用户始终通过工具类 HanLP 调用,这麼做的好处是,将来 HanLP 升级后,用户不需要修改调用代码。

2.自动缓存 的目的是为了加速词典载入速率单位单位,在下次载入时,缓存的词典文件会带来毫秒级的加载速率单位单位。肯能词典体积很大, 自动缓存 会耗费不要 时间,请耐心等待歌曲。

#核心词典路径

System.out.println(HanLP.segment("你好,欢迎使用HanLP!"));

l 写给正在编译 HanLP 的开发者

Webapp/WEB-INF/classes

CoreStopWordDictionaryPath=data/dictionary/stopwords.txt

所有Demo都处在 com.hankcs.demo 下。

#2元语法词典路径

BiGramDictionaryPath=data/dictionary/CoreNatureDictionary.ngram.txt

CoreDictionaryPath=data/dictionary/CoreNatureDictionary.txt

示例配置文件:

#自定义词典路径,用;隔开多个自定义词典,空格开头表示在同另另一一三个白目录,使用“文件名 词性”形式则表示你这俩 词典的词性默认是该词性。优先级递减。

1、下载jar

2、下载数据集

Webapp/WEB-INF/lib

肯能

肯能一切正常,您会得到累似 如下的输出:

#同义词词典路径

└─model

/Users/hankcs/JavaProjects/HanLP/data/data/dictionary/CoreNatureDictionary.txt加载失败

data的 父目录 即可,比如data目录是 /Users/hankcs/Documents/data ,这麼 root=/Users/hankcs/Documents/ 。

1.HanLP 对词典的数据特性进行了长期的优化,可不须要应对绝大多数场景。哪怕 HanLP 的词典上百兆就说 需要担心,肯能在内存中被精心压缩过。

HanLP将数据与多线程 池池分离,给予用户自定义的自由。 HanLP由三次要组成:HanLP = .jar + data + .properties ,请前往 项目主页 下载这另另一一三个白次要。

JRE/lib

3.自动缓存 缓存的全部都是明文词典,就说 双数组Trie树、DAWG、AhoCorasickDoubleArrayTrie等数据特性。

 

├─dictionary

BiGramDictionaryPath=data/dictionary/CoreNatureDictionary.ngram.mini.txt

配置文件的作用是告诉HanLP数据包的位置,只需修改第一行

project/out/production/project

核心词典

TraditionalChineseDictionaryPath=data/dictionary/tc/TraditionalChinese.txt

CoreDictionaryPath=data/dictionary/CoreNatureDictionary.mini.txt

CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; 现代汉语补充词库.txt; 全国地名大全.txt ns; 人名词典.txt; 机构名词典.txt; 上海地名.txt ns;data/dictionary/person/nrf.txt nrf

#繁简词典路径

data

HanLP 中的数据分为 词典 和 模型 ,其中 词典 是词法分析必需的, 模型 是句法分析必需的,data目录特性如下:

可选数据集

Appserver/lib

PersonDictionaryTrPath=data/dictionary/person/nr.tr.txt

root=E:/JavaProjects/HanLP/

对于Eclipse来讲

用户可不须要自行增删替换,肯能不须要句法分析功能语录,随时可不须要删除model文件夹。

1.肯能你正在编译运行从Github检出的 HanLP 代码,就说 这麼下载data,这麼首次加载词典/模型会处在另另一一三个白 自动缓存 的过程。

l 肯能选折 mini数据包语录,则须要修改配置文件:

PersonDictionaryPath=data/dictionary/person/nr.txt