摘要:
人类使用文本,计算机使用字节序列。 三明治原则 解码:把字节序列变成人类可读的文本字符串的过程 编码:把字符串变成用于存储或传输的字符序列的过程。 >>> open('cafe.txt', 'w', encoding='utf_8').write('café') 4 >>> open('cafe.t 阅读全文
摘要:
关键词提取 关键词的定义:这是一个仁者见仁,智者见智的问题。 一:词频统计 通过统计文章中反复出现的词语。 词频统计的流程:分词、停用词过滤、按词频取前n个。(m个元素取前n个元素通常利用最大堆解决。其复杂度为O(mlogn)) 缺点:高频词并不等价于关键词。 二:使用TF-IDF(词频-倒排文档频 阅读全文
摘要:
将元组作为一个记录存入列表中: traveler_ids=[('USA','311'),('BRA','342'),('ESP','566')] for passport in sorted(traveler_ids): print("%s%s"%passport)#元组的拆包 元组拆包: city 阅读全文
摘要:
什么是词典分词: 词典分词是最简单、最常见的分词算法,它是一套仅需一部词典和一套查词典的规则。 什么是词: 语言学的定义:具有独立意义的最小单位。这太模糊了,”最小单位”到底什么是最小呢? 基于词典的中文分词法中对于词的定义:,在词典中的字符串才是词,词典之外的不是词。 根据齐夫定律:一个“不容易” 阅读全文
摘要:
TextRank是啥: 一种用于文本的基于图的排序算法。 优点: 不需要学习训练。 模型原理: TextRank可以表示为一个有向有权图G=(V,E),图中任何两点Vi 和Vj之间的边的权重为wji,对于一个给定的点Vi ,In(Vi )为指向该点的点集合。out(Vi )为点Vi指向的点集合。 点 阅读全文
摘要:
Hive是个啥? 用类似sql语句实现对分布式存储系统的数据读写、管理功能的软件。HIVE不同于RDBMS(一般指关系数据库管理系统) Hive特点 1.使用类sql语句分析大数据,避免借助MapReduce程序分析数据 2.数据存储在HDFS上,不是Hive软件上(所以schema变更的时候,仅仅 阅读全文
摘要:
python常见序列类型 容器序列: list、tuple、collections.deque 可以存放不同类型的数据。 扁平序列: str、bytes、bytearray、memoryview和array.array 只能容纳一种类型数据。 容器序列存放的是对象的引用,扁平序列存放的是值 列表推导 阅读全文
摘要:
机器学习相关有关术语 模型:模型是用来指导机器自动学习出另一个算法的“元算法”。 特征:将事物的特点转化的数值。 特征提取:将事物的特点转化为数值类型的特征,然后让算法根据数据自动得到特征之间的权重。权重又称模型参数。 特征模板:通过程序定义一套模板提取特征,把所有可能的特征全部覆盖。 特征工程:如 阅读全文
摘要:
自然语言处理系统的输入源:语音,图像,文本。 语音识别:将语音经过识别后转化成文本。 光学字符识别:将图像中的字符识别后转化成文本。 得到文本后我们会围绕词语分析,这一步称为词法分析。 词法分析的主要任务: 中文分词:将文本分成有意义的词语。 词性标注:确定词语的类别和浅层的歧义消除。 命名实体识别 阅读全文
摘要:
内容来自CSDN--作者为zsffuture https://blog.csdn.net/weixin_42398658/article/details/83017995 什么是梯度? 以二元函数为例,如果一个函数为f(x,y),某点(x0,y0)的梯度为: 由定义可以看出,梯度为一个向量。 要进一 阅读全文