猫七的blog

2020年7月21日

摘要：人类使用文本，计算机使用字节序列。三明治原则解码：把字节序列变成人类可读的文本字符串的过程编码:把字符串变成用于存储或传输的字符序列的过程。 >>> open('cafe.txt', 'w', encoding='utf_8').write('café') 4 >>> open('cafe.t 阅读全文

posted @ 2020-07-21 17:14 猫七的blog 阅读(172) 评论(0) 推荐(0) 编辑

2020年7月18日

自然语言处理——实战：使用tf-idf提取关键词并生成词云

摘要：关键词提取关键词的定义:这是一个仁者见仁，智者见智的问题。一：词频统计通过统计文章中反复出现的词语。词频统计的流程：分词、停用词过滤、按词频取前n个。（m个元素取前n个元素通常利用最大堆解决。其复杂度为O（mlogn））缺点：高频词并不等价于关键词。二：使用TF-IDF（词频-倒排文档频阅读全文

posted @ 2020-07-18 09:45 猫七的blog 阅读(1844) 评论(0) 推荐(0) 编辑

2020年7月14日

元组学习

摘要：将元组作为一个记录存入列表中: traveler_ids=[('USA','311'),('BRA','342'),('ESP','566')] for passport in sorted(traveler_ids): print("%s%s"%passport)#元组的拆包元组拆包: city 阅读全文

posted @ 2020-07-14 23:16 猫七的blog 阅读(124) 评论(0) 推荐(0) 编辑

自然语言处理——词典分词

摘要：什么是词典分词：词典分词是最简单、最常见的分词算法，它是一套仅需一部词典和一套查词典的规则。什么是词：语言学的定义：具有独立意义的最小单位。这太模糊了，”最小单位”到底什么是最小呢？基于词典的中文分词法中对于词的定义：，在词典中的字符串才是词，词典之外的不是词。根据齐夫定律：一个“不容易” 阅读全文

posted @ 2020-07-14 22:01 猫七的blog 阅读(384) 评论(0) 推荐(0) 编辑

学习TextRank算法

摘要： TextRank是啥: 一种用于文本的基于图的排序算法。优点：不需要学习训练。模型原理： TextRank可以表示为一个有向有权图G=(V,E),图中任何两点Vi 和Vj之间的边的权重为wji,对于一个给定的点Vi ，In（Vi ）为指向该点的点集合。out（Vi ）为点Vi指向的点集合。点阅读全文

posted @ 2020-07-14 14:49 猫七的blog 阅读(762) 评论(2) 推荐(0) 编辑

2020年7月13日

Hive基本知识介绍

摘要： Hive是个啥？用类似sql语句实现对分布式存储系统的数据读写、管理功能的软件。HIVE不同于RDBMS（一般指关系数据库管理系统） Hive特点 1.使用类sql语句分析大数据，避免借助MapReduce程序分析数据 2.数据存储在HDFS上，不是Hive软件上（所以schema变更的时候，仅仅阅读全文

posted @ 2020-07-13 10:24 猫七的blog 阅读(301) 评论(0) 推荐(0) 编辑

内置序列类型

摘要： python常见序列类型容器序列： list、tuple、collections.deque 可以存放不同类型的数据。扁平序列： str、bytes、bytearray、memoryview和array.array 只能容纳一种类型数据。容器序列存放的是对象的引用，扁平序列存放的是值列表推导阅读全文

posted @ 2020-07-13 09:38 猫七的blog 阅读(104) 评论(0) 推荐(0) 编辑

2020年7月12日

自然语言处理——机器学习术语

摘要：机器学习相关有关术语模型：模型是用来指导机器自动学习出另一个算法的“元算法”。特征：将事物的特点转化的数值。特征提取：将事物的特点转化为数值类型的特征，然后让算法根据数据自动得到特征之间的权重。权重又称模型参数。特征模板：通过程序定义一套模板提取特征，把所有可能的特征全部覆盖。特征工程：如阅读全文

posted @ 2020-07-12 16:52 猫七的blog 阅读(222) 评论(0) 推荐(0) 编辑

2020年7月11日

自然语言处理——常见任务

摘要：自然语言处理系统的输入源：语音，图像，文本。语音识别：将语音经过识别后转化成文本。光学字符识别：将图像中的字符识别后转化成文本。得到文本后我们会围绕词语分析，这一步称为词法分析。词法分析的主要任务：中文分词：将文本分成有意义的词语。词性标注：确定词语的类别和浅层的歧义消除。命名实体识别阅读全文

posted @ 2020-07-11 19:19 猫七的blog 阅读(125) 评论(0) 推荐(0) 编辑

2020年6月29日

学习----梯度知识

摘要：内容来自CSDN--作者为zsffuture https://blog.csdn.net/weixin_42398658/article/details/83017995 什么是梯度？以二元函数为例，如果一个函数为f（x,y）,某点（x0，y0）的梯度为：由定义可以看出，梯度为一个向量。要进一阅读全文

posted @ 2020-06-29 09:16 猫七的blog 阅读(323) 评论(0) 推荐(0) 编辑

https://www.cnblogs.com/liuguangshou123/

公告