hanlp入门 (含标准分词、NLP分词、索引分词、N-最短路径分词、CRF分词、极速词典分词、自定义分词)

直接给代码

复制代码
 1 #-*- coding:utf-8 -*-
 2 from pyhanlp import *
 3 
 4 # 中文分词
 5 print(HanLP.segment('你好,欢迎在Python中调用HanLP的API'))
 6 print("-" * 70)
 7 
 8 print("=" * 30 + "标准分词" + "=" * 30)
 9 StandardTokenizer = JClass('com.hankcs.hanlp.tokenizer.StandardTokenizer')
10 print(StandardTokenizer.segment('你好,欢迎在Python中调用HanLP的API'))
11 print("-" * 70)
12 
13 # NLP分词NLPTokenizer会执行全部命名实体识别和词性标注
14 print("=" * 30 + "NLP分词" + "=" * 30)
15 NLPTokenizer = JClass('com.hankcs.hanlp.tokenizer.NLPTokenizer')
16 print(NLPTokenizer.segment('中国科学院计算技术研究所的宗成庆教授正在教授自然语言处理课程'))
17 print("-" * 70)
18 
19 print("=" * 30 + "索引分词" + "=" * 30)
20 IndexTokenizer = JClass('com.hankcs.hanlp.tokenizer.IndexTokenizer')
21 termList = IndexTokenizer.segment("主副食品")
22 for term in termList:
23     print(str(term) + " [" + str(term.offset) + ":" + str(term.offset + len(term.word)) + "]")
24 print("-" * 70)
25 
26 print("=" * 30 + " N-最短路径分词" + "=" * 30)
27 # CRFSegment = JClass('com.hankcs.hanlp.seg.CRF.CRFSegment')
28 # segment=CRFSegment()
29 # testCase ="今天,刘志军案的关键人物,山西女商人丁书苗在市二中院出庭受审。"
30 # print(segment.seg("你看过穆赫兰道吗"))
31 print("-" * 70)
32 
33 print("=" * 30 + " CRF分词" + "=" * 30)
34 print("-" * 70)
35 
36 print("=" * 30 + " 极速词典分词" + "=" * 30)
37 SpeedTokenizer = JClass('com.hankcs.hanlp.tokenizer.SpeedTokenizer')
38 print(NLPTokenizer.segment('江西鄱阳湖干枯,中国最大淡水湖变成大草原'))
39 print("-" * 70)
40 
41 print("=" * 30 + " 自定义分词" + "=" * 30)
42 CustomDictionary = JClass('com.hankcs.hanlp.dictionary.CustomDictionary')
43 CustomDictionary.add('攻城狮')
44 CustomDictionary.add('单身狗')
45 HanLP = JClass('com.hankcs.hanlp.HanLP')
46 print(HanLP.segment('攻城狮逆袭单身狗,迎娶白富美,走上人生巅峰'))
47 print("-" * 70)
复制代码

 

posted @   博二爷  阅读(783)  评论(0编辑  收藏  举报
编辑推荐:
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期(2025年3.1-3.9)
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
历史上的今天:
2019-10-15 Ubuntu start:未知任务:mysql
点击右上角即可分享
微信分享提示