随笔分类 - 自然语言处理(NLP)
摘要:参考博客 https://www.cnblogs.com/wys-373/p/12416557.html https://blog.csdn.net/qq_33873431/article/details/103678407 1、下载源码 https://github.com/hankcs/HanL
阅读全文
摘要:1、实现逻辑 package com.vue.demo.service.serviceimpl; import com.vue.demo.service.OCRService; import net.sourceforge.tess4j.Tesseract; import net.sourcefor
阅读全文
摘要:1、HanlP安装 pip install pyhanlp 2、使用 # -*- coding:utf-8 -*- from pyhanlp import * content = "现如今,机器学习和深度学习带动人工智能飞速的发展,并在图片处理、语音识别领域取得巨大成功。" print(HanLP.
阅读全文
摘要:知识点 1、准备语料库 相似度:1、正则/规则:适用没有数据 2、字符串相似 2、文本转为向量:1、one-hot编码 2、counter vector 3、Tf-idf 4、Word2vec 5、Seq2seq 3、相似度计算:1、欧式距离 2、余弦公式 1、创建一个类 import numpy
阅读全文
摘要:1、java.lang.UnsatisfiedLinkError: Unable to load library 'tesseract': Native library (linux-x86-64/libtesseract.so) not found in resource path 和 at co
阅读全文
摘要:1、基于词袋模型的逻辑回归情感分类 2、基于word2vec词向量模型的逻辑回归情感分类
阅读全文
摘要:1、知识点 2、中文数据清洗(使用停用词) 3、英文数据清洗(使用停用词) 4、nltk的停用词进行数据清洗
阅读全文
摘要:知识点 # - sentences:可以是一个list # - sg: 用于设置训练算法,默认为0,对应CBOW算法;sg=1则采用skip-gram算法。 # - size:是指特征向量的维度,默认为100。大的size需要更多的训练数据,但是效果会更好. 推荐值为几十到几百。 # - windo
阅读全文