hanlp入门 (含标准分词、NLP分词、索引分词、N-最短路径分词、CRF分词、极速词典分词、自定义分词)
直接给代码
1 #-*- coding:utf-8 -*- 2 from pyhanlp import * 3 4 # 中文分词 5 print(HanLP.segment('你好,欢迎在Python中调用HanLP的API')) 6 print("-" * 70) 7 8 print("=" * 30 + "标准分词" + "=" * 30) 9 StandardTokenizer = JClass('com.hankcs.hanlp.tokenizer.StandardTokenizer') 10 print(StandardTokenizer.segment('你好,欢迎在Python中调用HanLP的API')) 11 print("-" * 70) 12 13 # NLP分词NLPTokenizer会执行全部命名实体识别和词性标注 14 print("=" * 30 + "NLP分词" + "=" * 30) 15 NLPTokenizer = JClass('com.hankcs.hanlp.tokenizer.NLPTokenizer') 16 print(NLPTokenizer.segment('中国科学院计算技术研究所的宗成庆教授正在教授自然语言处理课程')) 17 print("-" * 70) 18 19 print("=" * 30 + "索引分词" + "=" * 30) 20 IndexTokenizer = JClass('com.hankcs.hanlp.tokenizer.IndexTokenizer') 21 termList = IndexTokenizer.segment("主副食品") 22 for term in termList: 23 print(str(term) + " [" + str(term.offset) + ":" + str(term.offset + len(term.word)) + "]") 24 print("-" * 70) 25 26 print("=" * 30 + " N-最短路径分词" + "=" * 30) 27 # CRFSegment = JClass('com.hankcs.hanlp.seg.CRF.CRFSegment') 28 # segment=CRFSegment() 29 # testCase ="今天,刘志军案的关键人物,山西女商人丁书苗在市二中院出庭受审。" 30 # print(segment.seg("你看过穆赫兰道吗")) 31 print("-" * 70) 32 33 print("=" * 30 + " CRF分词" + "=" * 30) 34 print("-" * 70) 35 36 print("=" * 30 + " 极速词典分词" + "=" * 30) 37 SpeedTokenizer = JClass('com.hankcs.hanlp.tokenizer.SpeedTokenizer') 38 print(NLPTokenizer.segment('江西鄱阳湖干枯,中国最大淡水湖变成大草原')) 39 print("-" * 70) 40 41 print("=" * 30 + " 自定义分词" + "=" * 30) 42 CustomDictionary = JClass('com.hankcs.hanlp.dictionary.CustomDictionary') 43 CustomDictionary.add('攻城狮') 44 CustomDictionary.add('单身狗') 45 HanLP = JClass('com.hankcs.hanlp.HanLP') 46 print(HanLP.segment('攻城狮逆袭单身狗,迎娶白富美,走上人生巅峰')) 47 print("-" * 70)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期(2025年3.1-3.9)
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
2019-10-15 Ubuntu start:未知任务:mysql