摘要: Spacy的一些用法: # 分词 nlp = spacy.load("zh_core_web_sm") doc = nlp(u'中国是世界上最大的发展中国家') for token in doc: print(token) # 另一种分词(不分割特有名词) nlp = spacy.load("zh_ 阅读全文
posted @ 2024-10-20 11:35 Akimizuss101 阅读(14) 评论(0) 推荐(0) 编辑
摘要: PDF的处理:需要将PDF文件放在项目文件夹下。或者也可以用绝对路径指出。 提取文字: import PyPDF2 #功能:从一页pdf种提取文字 # 使用 'rb' 模式打开 PDF 文件,使用二进制模式 with open('zhengzhi_9up.pdf', mode='rb') as my 阅读全文
posted @ 2024-10-20 11:33 Akimizuss101 阅读(10) 评论(0) 推荐(0) 编辑