摘要: ''' 1、官网下载:https://github.com/tesseract-ocr/tessdata/tree/3.04.00,网上有相应的exe文件下载安装,安装完成后把安装目录加到环境变量中,需要重启电脑 。 可下载相应的语言训练包放到tessdata目录下chi_sim开头的是识别中文的训 阅读全文
posted @ 2018-03-23 16:27 toloy 阅读(619) 评论(0) 推荐(0) 编辑
摘要: ''' Selenium 模拟浏览器爬取网页信息 一种是真实的浏览器,也即是在程序调用浏览器时,会打开相应的浏览器来显示, 如:chrome,ie,safari,firefox 一种是伪浏览器,没有浏览器界面,只负责处理html,js和cookie的功能。 如:htmlunit,phantomjs 阅读全文
posted @ 2018-03-23 14:31 toloy 阅读(291) 评论(0) 推荐(0) 编辑