上一页 1 ··· 5 6 7 8 9 10 下一页
摘要: 人类使用文本,计算机使用字节序列。 三明治原则 解码:把字节序列变成人类可读的文本字符串的过程 编码:把字符串变成用于存储或传输的字符序列的过程。 >>> open('cafe.txt', 'w', encoding='utf_8').write('café') 4 >>> open('cafe.t 阅读全文
posted @ 2020-07-21 17:14 猫七的blog 阅读(172) 评论(0) 推荐(0) 编辑
摘要: 关键词提取 关键词的定义:这是一个仁者见仁,智者见智的问题。 一:词频统计 通过统计文章中反复出现的词语。 词频统计的流程:分词、停用词过滤、按词频取前n个。(m个元素取前n个元素通常利用最大堆解决。其复杂度为O(mlogn)) 缺点:高频词并不等价于关键词。 二:使用TF-IDF(词频-倒排文档频 阅读全文
posted @ 2020-07-18 09:45 猫七的blog 阅读(1844) 评论(0) 推荐(0) 编辑
摘要: 将元组作为一个记录存入列表中: traveler_ids=[('USA','311'),('BRA','342'),('ESP','566')] for passport in sorted(traveler_ids): print("%s%s"%passport)#元组的拆包 元组拆包: city 阅读全文
posted @ 2020-07-14 23:16 猫七的blog 阅读(124) 评论(0) 推荐(0) 编辑
摘要: 什么是词典分词: 词典分词是最简单、最常见的分词算法,它是一套仅需一部词典和一套查词典的规则。 什么是词: 语言学的定义:具有独立意义的最小单位。这太模糊了,”最小单位”到底什么是最小呢? 基于词典的中文分词法中对于词的定义:,在词典中的字符串才是词,词典之外的不是词。 根据齐夫定律:一个“不容易” 阅读全文
posted @ 2020-07-14 22:01 猫七的blog 阅读(384) 评论(0) 推荐(0) 编辑
摘要: TextRank是啥: 一种用于文本的基于图的排序算法。 优点: 不需要学习训练。 模型原理: TextRank可以表示为一个有向有权图G=(V,E),图中任何两点Vi 和Vj之间的边的权重为wji,对于一个给定的点Vi ,In(Vi )为指向该点的点集合。out(Vi )为点Vi指向的点集合。 点 阅读全文
posted @ 2020-07-14 14:49 猫七的blog 阅读(762) 评论(2) 推荐(0) 编辑
摘要: Hive是个啥? 用类似sql语句实现对分布式存储系统的数据读写、管理功能的软件。HIVE不同于RDBMS(一般指关系数据库管理系统) Hive特点 1.使用类sql语句分析大数据,避免借助MapReduce程序分析数据 2.数据存储在HDFS上,不是Hive软件上(所以schema变更的时候,仅仅 阅读全文
posted @ 2020-07-13 10:24 猫七的blog 阅读(301) 评论(0) 推荐(0) 编辑
摘要: python常见序列类型 容器序列: list、tuple、collections.deque 可以存放不同类型的数据。 扁平序列: str、bytes、bytearray、memoryview和array.array 只能容纳一种类型数据。 容器序列存放的是对象的引用,扁平序列存放的是值 列表推导 阅读全文
posted @ 2020-07-13 09:38 猫七的blog 阅读(104) 评论(0) 推荐(0) 编辑
摘要: 机器学习相关有关术语 模型:模型是用来指导机器自动学习出另一个算法的“元算法”。 特征:将事物的特点转化的数值。 特征提取:将事物的特点转化为数值类型的特征,然后让算法根据数据自动得到特征之间的权重。权重又称模型参数。 特征模板:通过程序定义一套模板提取特征,把所有可能的特征全部覆盖。 特征工程:如 阅读全文
posted @ 2020-07-12 16:52 猫七的blog 阅读(222) 评论(0) 推荐(0) 编辑
摘要: 自然语言处理系统的输入源:语音,图像,文本。 语音识别:将语音经过识别后转化成文本。 光学字符识别:将图像中的字符识别后转化成文本。 得到文本后我们会围绕词语分析,这一步称为词法分析。 词法分析的主要任务: 中文分词:将文本分成有意义的词语。 词性标注:确定词语的类别和浅层的歧义消除。 命名实体识别 阅读全文
posted @ 2020-07-11 19:19 猫七的blog 阅读(125) 评论(0) 推荐(0) 编辑
摘要: 内容来自CSDN--作者为zsffuture https://blog.csdn.net/weixin_42398658/article/details/83017995 什么是梯度? 以二元函数为例,如果一个函数为f(x,y),某点(x0,y0)的梯度为: 由定义可以看出,梯度为一个向量。 要进一 阅读全文
posted @ 2020-06-29 09:16 猫七的blog 阅读(323) 评论(0) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9 10 下一页