python异步字符串查找,asyncio和marisa_trie
自然语言处理当中经常需要字符串的查找操作,比如通过查找返回字串在文本当中的位置,比如通过匹配实现的ner
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 | import pandas as pd import asyncio # data = pd.read_csv("guba_fc_result_20230413.csv") data = pd.read_csv( "guba_all_post_20230413.csv" ) filename = "cate_group.txt" def read_list_from_file(filename): with open (filename, 'r' ) as f: lst = [line.strip() for line in f] return lst cate_group = read_list_from_file(filename) import marisa_trie # 构建trie trie = marisa_trie.Trie(cate_group) # 匹配长字符串 # long_string = '宁德时代是做锂电池的' # results = [] # for i in range(len(long_string)): # matches = trie.prefixes(long_string[i:]) # # 输出匹配结果 # if matches: # for matche in matches: # results.append(matche) # print(results) async def match_text(long_string): long_string = str (long_string) results = [] for i in range ( len (long_string)): matches = trie.prefixes(long_string[i:]) # 输出匹配结果 if matches: for matche in matches: results.append(matche) return results async def main(): tasks = [] for i in data[ "text" ]: tasks.append(asyncio.create_task(match_text(i))) matches_list = await asyncio.gather( * tasks) data[ "matches" ] = matches_list print (matches_list) data.to_csv( "guba_all_matches_20230413.csv" ) if __name__ = = '__main__' : asyncio.run(main()) |
多思考也是一种努力,做出正确的分析和选择,因为我们的时间和精力都有限,所以把时间花在更有价值的地方。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 如何调用 DeepSeek 的自然语言处理 API 接口并集成到在线客服系统
· 【译】Visual Studio 中新的强大生产力特性
· 2025年我用 Compose 写了一个 Todo App