随笔分类 -  自然语言处理(NLP)

摘要:参考博客 https://www.cnblogs.com/wys-373/p/12416557.html https://blog.csdn.net/qq_33873431/article/details/103678407 1、下载源码 https://github.com/hankcs/HanL 阅读全文
posted @ 2021-07-22 12:05 小白啊小白,Fighting 阅读(572) 评论(0) 推荐(0) 编辑
摘要:1、实现逻辑 package com.vue.demo.service.serviceimpl; import com.vue.demo.service.OCRService; import net.sourceforge.tess4j.Tesseract; import net.sourcefor 阅读全文
posted @ 2020-04-22 22:41 小白啊小白,Fighting 阅读(3355) 评论(0) 推荐(0) 编辑
摘要:1、HanlP安装 pip install pyhanlp 2、使用 # -*- coding:utf-8 -*- from pyhanlp import * content = "现如今,机器学习和深度学习带动人工智能飞速的发展,并在图片处理、语音识别领域取得巨大成功。" print(HanLP. 阅读全文
posted @ 2020-04-19 10:03 小白啊小白,Fighting 阅读(2453) 评论(0) 推荐(0) 编辑
摘要:知识点 1、准备语料库 相似度:1、正则/规则:适用没有数据 2、字符串相似 2、文本转为向量:1、one-hot编码 2、counter vector 3、Tf-idf 4、Word2vec 5、Seq2seq 3、相似度计算:1、欧式距离 2、余弦公式 1、创建一个类 import numpy 阅读全文
posted @ 2020-04-09 09:31 小白啊小白,Fighting 阅读(438) 评论(0) 推荐(0) 编辑
摘要:1、java.lang.UnsatisfiedLinkError: Unable to load library 'tesseract': Native library (linux-x86-64/libtesseract.so) not found in resource path 和 at co 阅读全文
posted @ 2020-04-03 23:35 小白啊小白,Fighting 阅读(3093) 评论(0) 推荐(0) 编辑
摘要:1、基于词袋模型的逻辑回归情感分类 2、基于word2vec词向量模型的逻辑回归情感分类 阅读全文
posted @ 2019-07-02 10:51 小白啊小白,Fighting 阅读(1535) 评论(0) 推荐(0) 编辑
摘要:1、代码 阅读全文
posted @ 2019-06-17 17:37 小白啊小白,Fighting 阅读(1166) 评论(0) 推荐(0) 编辑
摘要:1、知识点 2、代码 阅读全文
posted @ 2019-06-15 10:27 小白啊小白,Fighting 阅读(6480) 评论(0) 推荐(1) 编辑
摘要:1、知识点 2、中文数据清洗(使用停用词) 3、英文数据清洗(使用停用词) 4、nltk的停用词进行数据清洗 阅读全文
posted @ 2019-06-13 21:40 小白啊小白,Fighting 阅读(6242) 评论(7) 推荐(1) 编辑
摘要:知识点 # - sentences:可以是一个list # - sg: 用于设置训练算法,默认为0,对应CBOW算法;sg=1则采用skip-gram算法。 # - size:是指特征向量的维度,默认为100。大的size需要更多的训练数据,但是效果会更好. 推荐值为几十到几百。 # - windo 阅读全文
posted @ 2019-06-11 11:25 小白啊小白,Fighting 阅读(778) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示