04 2021 档案

摘要:NLP工具汇总 NLTK 主要用来处理英文 命名实体识别 词性还原(英文) Stanford NLP 主要用来处理英文 命名实体识别 Trankit 依存句法分析 word2vec 一种的词向量表的表示方式 Word2vec 是代码项目的名字,只是计算词嵌入(word embedding)的一个工具 阅读全文
posted @ 2021-04-28 10:55 小杨的冥想课 阅读(439) 评论(0) 推荐(0) 编辑
摘要:neo4j通过neo4j-admin import导入CSV文件 1.数据准备:节点文件:lv,zhibiao 关系文件:duiying三个文件均为在EXCEL保存为CSV文件格式 2.找到neo4j的安装路径的bin文件夹,新建一个move文件夹 3.复制三个文件到该文件夹下,并选择打开方式——记 阅读全文
posted @ 2021-04-28 10:44 小杨的冥想课 阅读(1498) 评论(0) 推荐(0) 编辑
摘要:文本的表示方法有哪些 基于one-hot、tf-idf、textrank 等的bag-of-words 主题模型:LSA (SVD) 、pLSA、LDA 基于词向量的固定表征: Word2vec、FastText、GloVe 基于词向量的动态表征:ELMo、GPT、BERT 阅读全文
posted @ 2021-04-28 09:26 小杨的冥想课 阅读(260) 评论(0) 推荐(0) 编辑
摘要:深度学习框架 TensorFlow 特点:静态框架 而TensorFlow就是AI技术层中的学习框架。所谓学习框架,你可以用它来处理大量数据,快速建立数学模型, TensorFlow是一个软件,在该软件里面,用户需要使用Python等语言通过编程来搭建数学模型 TensorFlow Serving 阅读全文
posted @ 2021-04-28 09:21 小杨的冥想课 阅读(82) 评论(0) 推荐(0) 编辑
摘要:优先级限制下的调度问题:在满足限制条件的情况下如何安排并完成所有任务 有向图中的环 如果一个有优先级限制的问题中存在有向环,那么这个问题肯定是无解的。因此我们需要首先进行有向环检测 有向环检测:检测给定的有向图是否包含环,若有环,通常只需找出一个即可 寻找环利用了DFS方法,维护一个递归调用期间已访 阅读全文
posted @ 2021-04-22 10:56 小杨的冥想课 阅读(304) 评论(0) 推荐(0) 编辑
摘要:pyltp安装闭坑指南 pyltp是中文NLP最基础的工具,但这个包真的难装小哥颇费一般周折 官网是这样说的,但大概率是装不上,我试了两种方法用了pycharm上的装包工具和pip都不行 主要的原因是: pyltp值提供了python3.5和python3.6版本,所以必须把自己的python的版本 阅读全文
posted @ 2021-04-17 21:02 小杨的冥想课 阅读(161) 评论(0) 推荐(0) 编辑
摘要:pip安装包到不同的python解释器 在装包的时候经常会在不同的环境上装不同的包,这时候在装包的时候就需要选择不同的python环境 方法一:全路径安装C:\Users\lenovo\AppData\Local\Programs\Python\Python36\python3.exe -m pip 阅读全文
posted @ 2021-04-17 20:32 小杨的冥想课 阅读(1237) 评论(0) 推荐(0) 编辑
摘要:WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connec 在用pip安装包时,报错 一种可能kexueshangwnag了开着,改成直连模式,或关掉就可以了 阅读全文
posted @ 2021-04-16 19:48 小杨的冥想课 阅读(1170) 评论(0) 推荐(0) 编辑
摘要:词向量 几个概念 词嵌入(word embedding):把文本转换成数值形式,或者说——嵌入到一个数学空间里,而 词向量:一个单词所对应的向量,向量之间的数学关系可以表示单词之间的语义关系 词的离散式表示 ***one-hot *** Bag of Words(词袋模型) 没有表达单词在原来句子中 阅读全文
posted @ 2021-04-14 08:53 小杨的冥想课 阅读(334) 评论(0) 推荐(0) 编辑
摘要:基于规则的关系抽取 流程 基于规则和人工抽取关系词——>基于抽取的关系词抽取关系句——>基于人工总结的模板结合同义词和re模块进行模板匹配抽取三元组 规则 句子关系词抽取(所谓的关系词就是含有某个关系的句子,经常出现并且特有的词,要有区分度:与全局普通句子的区分度,与其他关系句子的区分度) 采用类似 阅读全文
posted @ 2021-04-13 22:54 小杨的冥想课 阅读(1135) 评论(0) 推荐(0) 编辑
摘要:NLP(十三)中文分词工具的使用尝试 转自:jclian91](https://segmentfault.com/u/jclian91) 本文将对三种中文分词工具进行使用尝试,这三种工具分别为哈工大的LTP,结巴分词以及北大的pkuseg。 首先我们先准备好环境,即需要安装三个模块:pyltp, j 阅读全文
posted @ 2021-04-11 17:25 小杨的冥想课 阅读(202) 评论(0) 推荐(0) 编辑
摘要:NLP(十二)依存句法分析的可视化及图分析 转自:jclian91 依存句法分析的效果虽然没有像分词、NER的效果来的好,但也有其使用价值,在日常的工作中,我们免不了要和其打交道。笔者这几天一直在想如何分析依存句法分析的结果,一个重要的方面便是其可视化和它的图分析。 我们使用的NLP工具为jieba 阅读全文
posted @ 2021-04-11 17:22 小杨的冥想课 阅读(574) 评论(0) 推荐(0) 编辑
摘要:NLP入门(十一)从文本中提取时间 转自:jclian91 在我们的日常生活和工作中,从文本中提取时间是一项非常基础却重要的工作,因此,本文将介绍如何从文本中有效地提取时间。 举个简单的例子,我们需要从下面的文本中提取时间: 6月28日,杭州市统计局权威公布《2019年5月月报》,杭州市医保参保人数 阅读全文
posted @ 2021-04-11 17:19 小杨的冥想课 阅读(416) 评论(0) 推荐(0) 编辑
摘要:NLP入门(十)使用LSTM进行文本情感分析 转自:jclian91 情感分析简介 文本情感分析(Sentiment Analysis)是自然语言处理(NLP)方法中常见的应用,也是一个有趣的基本任务,尤其是以提炼文本情绪内容为目的的分类。它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过 阅读全文
posted @ 2021-04-11 17:16 小杨的冥想课 阅读(494) 评论(0) 推荐(0) 编辑
摘要:NLP入门(九)词义消岐(WSD)的简介与实现 转自:jclian91](https://segmentfault.com/u/jclian91) 词义消岐简介 词义消岐,英文名称为Word Sense Disambiguation,英语缩写为WSD,是自然语言处理(NLP)中一个非常有趣的基本任务 阅读全文
posted @ 2021-04-11 17:12 小杨的冥想课 阅读(462) 评论(0) 推荐(0) 编辑
摘要:NLP入门(八)使用CRF++实现命名实体识别(NER) 转自:jclian91 CRF与NER简介 CRF,英文全称为conditional random field, 中文名为条件随机场,是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫(Ma 阅读全文
posted @ 2021-04-11 17:06 小杨的冥想课 阅读(649) 评论(0) 推荐(0) 编辑
摘要:NLP入门(七)中文预处理之繁简体转换及获取拼音](https://segmentfault.com/a/1190000018086549) 转自:[jclian91 在日常的中文NLP中,经常会涉及到中文的繁简体转换以及拼音的标注等问题,本文将介绍这两个方面的实现。 首先是中文的繁简体转换,不需要 阅读全文
posted @ 2021-04-11 16:59 小杨的冥想课 阅读(245) 评论(0) 推荐(0) 编辑
摘要:NLP入门(六) pyltp的介绍与使用 转自:jclian91 原文链接:https://segmentfault.com/a/1190000018081013 pyltp的简介 语言技术平台(LTP)经过哈工大社会计算与信息检索研究中心 11 年的持续研发和推广, 是国内外最具影响力的中文处理基 阅读全文
posted @ 2021-04-11 16:53 小杨的冥想课 阅读(391) 评论(0) 推荐(0) 编辑
摘要:NLP入门(五)用深度学习实现命名实体识别(NER) 转自:jclian91 原文链接:https://segmentfault.com/a/1190000017040739 前言 在文章:NLP入门(四)命名实体识别(NER)中,笔者介绍了两个实现命名实体识别的工具——NLTK和Stanford 阅读全文
posted @ 2021-04-11 16:46 小杨的冥想课 阅读(696) 评论(0) 推荐(0) 编辑
摘要:NLP入门(四)命名实体识别(NER)转自:jclian91 原文链接:https://segmentfault.com/a/1190000017015436 本文将会简单介绍自然语言处理(NLP)中的命名实体识别(NER)。 命名实体识别(Named Entity Recognition,简称NE 阅读全文
posted @ 2021-04-11 16:39 小杨的冥想课 阅读(258) 评论(0) 推荐(0) 编辑
摘要:NLP(三)词形还原(Lemmatization) 原文l链接:https://segmentfault.com/a/1190000016891462 词形还原(Lemmatization)是文本预处理中的重要部分,与词干提取(stemming)很相似。 简单说来,词形还原就是去掉单词的词缀,提取单 阅读全文
posted @ 2021-04-11 16:30 小杨的冥想课 阅读(161) 评论(0) 推荐(0) 编辑
摘要:NLP(二)探究TF-IDF的原理(转自:jclian91) 原文l链接:https://segmentfault.com/a/1190000016885671 TF-IDF介绍 TF-IDF是NLP中一种常用的统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度,通常用于 阅读全文
posted @ 2021-04-11 16:24 小杨的冥想课 阅读(151) 评论(0) 推荐(0) 编辑
摘要:NLP入门(一)词袋模型及句子相似度(转自:jclian91) 原文链接:https://segmentfault.com/a/1190000016873402 本文作为笔者NLP入门系列文章第一篇,以后我们就要步入NLP时代。 本文将会介绍NLP中常见的词袋模型(Bag of Words)以及如何 阅读全文
posted @ 2021-04-11 16:17 小杨的冥想课 阅读(252) 评论(0) 推荐(0) 编辑
摘要:SOA(源于虫师) SOA并不是某一种具体的技术实现,它是一个系统架构的设计思想。 web serveice 如果一个软件的主要部分采用了"网络服务",即它把存储或计算环节"外包"给其他网站了,那么我们就说这个软件属于Web Service架构。云计算"(cloud computing)或者"云服务 阅读全文
posted @ 2021-04-07 22:47 小杨的冥想课 阅读(204) 评论(0) 推荐(0) 编辑
摘要:python的镜像包安装 pip install keras -i http://pypi.douban.com/simple --trusted-host pypi.douban.com (豆瓣) keras为所需要安装的包 阿里云 http://mirrors.aliyun.com/pypi/s 阅读全文
posted @ 2021-04-05 22:19 小杨的冥想课 阅读(310) 评论(0) 推荐(0) 编辑
摘要:中文分词:双向匹配最大算法(BI-MM) 启发式规则: 1.如果正反向分词结果词数不同,则取分词数量较少的那个 2.如果分词结果词数相同 分词结果相同,就说明没有歧义,可返回任意一个 分词结果不同,返回其中单字较少的那个 代码实现 #使用双向最大匹配算法实现中文分词 words_dic = [] i 阅读全文
posted @ 2021-04-04 23:49 小杨的冥想课 阅读(1127) 评论(0) 推荐(0) 编辑
摘要:从github中获取代码 在cmd中输入cd desktop git clone + 所复制的链接 阅读全文
posted @ 2021-04-04 22:21 小杨的冥想课 阅读(226) 评论(0) 推荐(0) 编辑
摘要:解决文件冲突 原因:线上与线下文件不一致,为及时的pull、push 解决方案: git branch git add . git commit -m"add profile" git pull origin add-readme >因不一致报错< 找到原始的本地文件,删除与仓库不一致的内容 git 阅读全文
posted @ 2021-04-04 22:19 小杨的冥想课 阅读(182) 评论(0) 推荐(0) 编辑
摘要:创建分支 在cmd中进入所选文件夹 git branch add-readme >add-readme为所要添加的自述文件< git branch >查看分支< git checkout add-readme git add . git commit -m"add readme file" >" " 阅读全文
posted @ 2021-04-04 22:18 小杨的冥想课 阅读(66) 评论(0) 推荐(0) 编辑
摘要:上传本地文件到github 打开cmd,输入git --version,如果报错,安装git for window 成功现实后输入global user.name"statueyang", >statueyang为你的github的名字< 输入global user.email"876578283@ 阅读全文
posted @ 2021-04-04 22:17 小杨的冥想课 阅读(43) 评论(0) 推荐(0) 编辑
摘要:mysql事务 mysql中,事务是一个最小的不可分割的工作单元。事务能够保证一个业务的完整性 比如银行转账: a ——> -100 update user set money=money-100 where name ="a"; b——> +100 update user set money=mo 阅读全文
posted @ 2021-04-04 22:15 小杨的冥想课 阅读(128) 评论(0) 推荐(0) 编辑
摘要:查询练习 创建表 学生表 student 学号 姓名 性别 出生日期 班级 create table student( sno varchar(20) primary key, sname varchar(20) not null, ssex varchar(10)not null, sbirthd 阅读全文
posted @ 2021-04-04 22:14 小杨的冥想课 阅读(568) 评论(0) 推荐(0) 编辑
摘要:中文分词:逆向匹配最大算法 反向最大匹配法的基本原理与正向最大匹配法类似只是分词顺序变为从右至左。般从一个字符串的开始位置,选择一个最大长度的词长的片段,如果序列不足最大词长,则选择全部序列。 代码实现 #使用逆向最大匹配算法实现中文分词 words_dic = [] def init(): ''' 阅读全文
posted @ 2021-04-04 22:11 小杨的冥想课 阅读(1661) 评论(0) 推荐(0) 编辑
摘要:中文分词:正向匹配最大算法 正向最大匹配法,对于输入的一段文本从左至右、以贪心的方式切出当前位置上长度最大的词。正向最大匹配法是基于词典的分词方,其分词原理是:单词的颗粒度越大,所能表示的含义越确切。该算法主要分两个步骤: 1、一般从一个字符串的开始位置,选择一个最大长度的词长的片段,如果序列不足最 阅读全文
posted @ 2021-04-04 17:08 小杨的冥想课 阅读(2874) 评论(0) 推荐(0) 编辑
摘要:在安装pyhanlp报错:Could not find a version that satisfies the requirement pyhanlp - 命令行输出 pip install pyhanlp时会报错,试了很多种方法不太行。我就直接下载了pyhanlp的文件,链接地址 - 再在命令行 阅读全文
posted @ 2021-04-01 15:03 小杨的冥想课 阅读(463) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示