急速词典分词

  • 极速分词是词典最长分词,速度极其快,精度一般。
  • 在i7-6700K上跑出了4500万字每秒的速度。
  • # *****************************急速词典分词*****************************
    
    print('-' * 40)
    print('急速词典分词')
    print('-' * 40)
    
    SpeedTokenizer = JClass('com.hankcs.hanlp.tokenizer.SpeedTokenizer')
    terms = SpeedTokenizer.segment(text)
    print(terms)
    

      

    ----------------------------------------
    急速词典分词
    ----------------------------------------
    [举办/null, 纪念活动/null, 铭记/null, 二战/null, 历史/null, ,/null, 不忘/null, 战争/null, 带给/null, 人类/null, 的/null, 深重/null, 灾难/null, ,/null, 是/null, 为了/null, 防止/null, 悲剧/null, 重演/null, ,/null, 确保/null, 和平/null, 永驻/null, ;/null, 记/null, 二战/null, 历史/null, ,/null, 更是/null, 为了/null, 提醒/null, 国际/null, 社会/null, ,/null, 需要/null, 共同/null, 捍卫/null, 二战/null, 胜利/null, 成果/null, 和/null, 国际/null, 公平/null, 正义/null, ,/null, 必须/null, 警惕/null, 和/null, 抵制/null, 在/null, 历史/null, 认知/null, 和/null, 维护/null, 战后/null, 国际/null, 秩序/null, 问题/null, 上/null, 的/null, 倒行逆施/null, 。/null]
    

      

    自定义词典分词

    # *****************************自定义词典分词*****************************
    
    print('-' * 40)
    print('自定义词典分词')
    print('-' * 40)
    
    text = '攻城狮逆袭单身狗,迎娶白富美,走向人生巅峰'
    
    terms = HanLP.segment(text)
    print('未添加自定义词典:', terms)
    
    CustomDictionary = JClass('com.hankcs.hanlp.dictionary.CustomDictionary')
    CustomDictionary.add('攻城狮')
    CustomDictionary.add('单身狗')
    
    terms = HanLP.segment(text)
    print('使用自定义词典', terms)
    

      

    ----------------------------------------
    自定义词典分词
    ----------------------------------------
    未添加自定义词典: [攻城/vi, 狮/ng, 逆袭/nz, 单身/n, 狗/n, ,/w, 迎娶/v, 白富美/nr, ,/w, 走向/v, 人生/n, 巅峰/n]
    使用自定义词典 [攻城狮/nz, 逆袭/nz, 单身狗/nz, ,/w, 迎娶/v, 白富美/nr, ,/w, 走向/v, 人生/n, 巅峰/n]
    

      

     

posted @ 2022-04-09 08:00  青竹之下  阅读(8)  评论(0编辑  收藏  举报