2024 年 10月 20 日随笔档案 - Akimizuss101

2024年10月20日

摘要： Spacy的一些用法： # 分词 nlp = spacy.load("zh_core_web_sm") doc = nlp(u'中国是世界上最大的发展中国家') for token in doc: print(token) # 另一种分词（不分割特有名词） nlp = spacy.load("zh_ 阅读全文

posted @ 2024-10-20 11:35 Akimizuss101 阅读(14) 评论(0) 推荐(0) 编辑

关于电子书(PDF格式)提取信息的处理方式

摘要： PDF的处理：需要将PDF文件放在项目文件夹下。或者也可以用绝对路径指出。提取文字： import PyPDF2 #功能：从一页pdf种提取文字 # 使用 'rb' 模式打开 PDF 文件，使用二进制模式 with open('zhengzhi_9up.pdf', mode='rb') as my 阅读全文

posted @ 2024-10-20 11:33 Akimizuss101 阅读(10) 评论(0) 推荐(0) 编辑

Akimizuss101

公告