python 多进程jieba分词,高效分词,multiprocessing
自然语言任务经常使用jieba分词,数据量大时怎么加速,jieba分词不支持使用asyncio异步加速,使用multiprocessing还是可以的
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 | import jieba import jieba.analyse import multiprocessing # 加载自定义词典 jieba.load_userdict( "user_dic.txt" ) jieba.load_userdict( "cate_group.txt" ) jieba.analyse.set_stop_words( 'stopwords_v1.txt' ) def process_text(text): # 分词 words = jieba.cut(text, cut_all = True ) # 过滤长度小于2或大于10的词和纯数字的词 filtered_words = [w for w in words if len (w) > = 2 and len (w) < = 10 and not w.isdigit()] # 返回分词结果 return filtered_words # 创建进程池 pool = multiprocessing.Pool() # 处理文本列表 # texts = ["这是一段测试文本", "这是另一段测试文本"] texts = data[ "new_text" ] results = pool. map (process_text, texts) # 输出结果 results |
结果:
[['估值', '有待', '修复', '煤炭', '平均', '市盈率', '美元'], ['国产', '医疗', '医疗器械', '器械', '行业', '发展', '迅速', '作为', '国内', '最大', '医疗', '医疗器械', '器械', '企业', '基本', '一枝', '一枝独秀', '独秀'], ['今日', '上海', '现货'], ['消息', '准备'],
多思考也是一种努力,做出正确的分析和选择,因为我们的时间和精力都有限,所以把时间花在更有价值的地方。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 如何调用 DeepSeek 的自然语言处理 API 接口并集成到在线客服系统
· 【译】Visual Studio 中新的强大生产力特性
· 2025年我用 Compose 写了一个 Todo App