2019年8月11日

全网独发gensim中similarities.Similarity用法

摘要: index = similarities.MatrixSimilarity(lsi[corpus]) # 管网的原文翻译如下: 警告:similarities.MatrixSimilarity类仅仅适合能将所有的向量都在内存中的情况。例如,如果一个百万文档级的语料库使用该类,可能需要2G内存与256 阅读全文

posted @ 2019-08-11 23:00 耀扬 阅读(7336) 评论(0) 推荐(0) 编辑

一个非常有趣的爬虫小练习带ocr识别的

摘要: 有个小的想法,想找一找 形近字 。百度一搜索,百度文库有一个,收费4元。而且我觉得字数不是太多。想自己弄一个,于是找到了 这个网站 http://www.fantiz5.com/xingjinzi/ 这里面据说字数很多,开练! 主要是为了学习 chrome,开发者调试 发现 有个 zhuan() 的 阅读全文

posted @ 2019-08-11 19:58 耀扬 阅读(1011) 评论(0) 推荐(0) 编辑

python中ocr软件pytesseract使用

摘要: 首先要看原版的参考 https://github.com/madmaze/pytesseract 直接上代码, import pytesseractfrom PIL import Image image = Image.open(r'D:\xingjinzi\5.jfif') result =pyt 阅读全文

posted @ 2019-08-11 17:26 耀扬 阅读(2003) 评论(0) 推荐(0) 编辑

导航