随笔 - 368, 文章 - 0, 评论 - 56, 阅读 - 94万
  博客园  :: 首页  :: 联系 :: 管理

随笔分类 -  Python

摘要:Tesseract4.X已经有了初步成效(见下面的对比), 但目前结果对于训练之外的数据, 仍会有很大的偏差。想要更好的 OCR 结果, README 中重点强调的一点是: 在交给 Tesseract 之前, 改进图像的质量. 图像质量 Tesseract 处理 300 dpi 以上的图片会更加出色 阅读全文

posted @ 2019-09-17 16:51 天戈朱 阅读(1472) 评论(0) 推荐(0) 编辑

摘要:参考:https://groups.google.com/forum/#!msg/tesseract-ocr/MSYezIbckvs/kO1VoNKMDMQJ V4版本代码示例 : 合并识别结果 首先,需要图片样本.tif文件,位置文件.box ,只要有这两个文件在,就可以合并字典 假设已存在如下样 阅读全文

posted @ 2019-09-17 16:51 天戈朱 阅读(469) 评论(0) 推荐(0) 编辑

摘要:OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。优秀的开源OCR软件包括: Tesseract:原本由惠普开发的图像识别类库te 阅读全文

posted @ 2019-09-17 16:50 天戈朱 阅读(1946) 评论(1) 推荐(0) 编辑

摘要:由于tesseract的中文语言包“chi_sim”对中文字体或者环境比较复杂的图片,识别正确率不高,因此需要针对特定情况用自己的样本进行训练,提高识别率,通过训练,也可以形成自己的语言库。 工具: Java虚拟机,由于jTessBoxEditor的运行依赖Java运行时环境,所以需要安装Java虚 阅读全文

posted @ 2019-09-17 16:50 天戈朱 阅读(1133) 评论(0) 推荐(0) 编辑

摘要:通过命令:tesseract -h 可查看 OCR操作脚本参数: 其中参数说明: –-oem:指定使用的算法,0:代表老的算法;1:代表LSTM算法;2:代表两者的结合;3:代表系统自己选择。 –-psm:指定页面切分模式。默认是3,也就是自动的页面切分,但是不进行方向(Orientation)和文 阅读全文

posted @ 2019-09-17 16:50 天戈朱 阅读(983) 评论(0) 推荐(0) 编辑

摘要:对于Python数据可视化库,matplotlib 已经成为事实上的数据可视化方面最主要的库,此外还有很多其他库,例如vispy,bokeh, seaborn,pyga,folium 和 networkx,这些库有些是构建在 matplotlib 之上,还有些有其他一些功能。 目录 matplotl 阅读全文

posted @ 2019-08-24 08:46 天戈朱 阅读(1264) 评论(0) 推荐(0) 编辑

摘要:Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。bs4 模块的 BeautifulSoup 配合requests库可以写简单的爬虫。 安装 命令:pip install beautifulsoup4 解析器 主要的解析器,以及它们的优缺点如下: 安装命令: 阅读全文

posted @ 2019-08-24 08:45 天戈朱 阅读(3451) 评论(0) 推荐(0) 编辑

摘要:python连接微软的sql server数据库用的第三方模块叫做pymssql(document:http://www.pymssql.org/en/stable/index.html)。在官方文档可以看到,pymssql是基于_mssql模块做的封装。打开:https://pypi.org/,搜 阅读全文

posted @ 2019-08-20 19:43 天戈朱 阅读(470) 评论(0) 推荐(0) 编辑

摘要:Python python官网:https://www.python.org/ 将python加入到windows的环境变量中,如果忘记打勾,则需要手工加到环境变量中; 检测一下是否安装成功,用系统管理员打开命令行工具cmd,输入“python -V” PyCharm PyCharm是专业的pyth 阅读全文

posted @ 2019-08-20 19:42 天戈朱 阅读(462) 评论(0) 推荐(0) 编辑

摘要:python的标识符 _foo:以单下划线开头代表不能直接访问的类属性,需通过类提供的接口进行访问,不能用 from xxx import * 而导入 __foo:以双下划线开头的代表类的私有成员。 __foo__:以双下划线开头和结尾的 代表 Python 里特殊方法专用的标识,如 __init_ 阅读全文

posted @ 2018-08-26 22:08 天戈朱 阅读(413) 评论(0) 推荐(0) 编辑

摘要:程序执行过程 示例 : 参考资料 http://python.jobbole.com/84599/ https://www.cnblogs.com/aiyr/p/6867732.html 阅读全文

posted @ 2018-08-26 22:08 天戈朱 阅读(851) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示