—super—

博客园 首页 新随笔 联系 订阅 管理

随笔分类 -  机器学习部分

摘要:import pytesseract from PIL import Image im=Image.open('image.png') print(pytesseract.image_to_string(im))安装注意: 环境变量需要配置两处 1、path 2、TESSDATA_PREFIX初始路径 pytesseract.pytesseract.tesseract_cmd = 'd://Tes 阅读全文
posted @ 2019-11-29 12:24 —super— 阅读(331) 评论(0) 推荐(0) 编辑

摘要:spaCy能够比较两个对象,并预测它们的相似程度。 预测相似性对于构建推荐系统或标记重复项很有用。 例如,您可以建议与当前正在查看的用户内容相似的用户内容,或者将支持凭单标记为与现有内容非常相似的副本。 每个Doc、Span和Token都有一个.similarity()方法,它允许您将其与另一个对象 阅读全文
posted @ 2019-08-08 11:41 —super— 阅读(1367) 评论(0) 推荐(0) 编辑

摘要:官方文档: https://spacy.io/api Spacy功能简介 可以用于进行分词,命名实体识别,词性识别等等,但是首先需要下载预训练模型 pip install --user spacy python -m spacy download en_core_web_sm pip install 阅读全文
posted @ 2019-08-06 17:39 —super— 阅读(812) 评论(0) 推荐(0) 编辑

摘要:官方文档: https://radimrehurek.com/gensim/models/word2vec.html 1、训练模型定义 参数解释: 1.sg=1是skip-gram算法,对低频词敏感;默认sg=0为CBOW算法。 2.size是输出词向量的维数,值太小会导致词映射因为冲突而影响结果, 阅读全文
posted @ 2019-08-06 15:07 —super— 阅读(420) 评论(0) 推荐(0) 编辑

摘要:git-url: https://github.com/lancopku/PKUSeg-python pkuseg:一个多领域中文分词工具包 pkuseg简单易用,支持细分领域分词,有效提升了分词准确度。 主要亮点 pkuseg具有如下几个特点: 编译和安装 目前仅支持python3 为了获得好的效 阅读全文
posted @ 2019-08-01 11:51 —super— 阅读(869) 评论(0) 推荐(0) 编辑

摘要:一、jieba介绍jieba库是一个简单实用的中文自然语言处理分词库。 jieba分词属于概率语言模型分词。概率语言模型分词的任务是:在全切分所得的所有结果中求某个切分方案S,使得P(S)最大。 jieba支持三种分词模式: 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决 阅读全文
posted @ 2019-07-30 14:29 —super— 阅读(2708) 评论(0) 推荐(1) 编辑

摘要:url: https://github.com/fxsjy/jieba/blob/master/ jieba “结巴”中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built 阅读全文
posted @ 2019-07-30 14:25 —super— 阅读(130) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示