07 2020 档案

摘要:高阶函数: 接受函数为参数,或者把函数作为结果返回的函数是高阶函数。 例子: python的sorted函数 需求:根据单词长度排序。 fruits=['strawberry','fig','apple','cherry','raspberry'] sorted(fruits,key=len) 需求 阅读全文
posted @ 2020-07-25 17:50 猫七的blog 阅读(101) 评论(0) 推荐(0) 编辑
摘要:全连接神经网络: 网络结构是从输入层到隐含层,再到输出层,层与层之间是有连接的,隐含层之间的结点是无连接的。 循环神经网络: 隐含层之间的结点使连接是,隐含层的输入不仅包括输入层的输出,还包括上一时刻隐含层的输出。 阅读全文
posted @ 2020-07-24 15:39 猫七的blog 阅读(117) 评论(0) 推荐(0) 编辑
摘要:word mover's Distance 优点: 1.效果出色 2.无监督:不需要标注数据 3.模型简单:仅将词向量作为结果输入 4.可解释下:问题转为线性规划,有全局最优解 5.灵活性:可以人为干预词的重要性 缺点: 1.词袋模型,没有保留语序信息 2.不能很好地处理词向量的out of voc 阅读全文
posted @ 2020-07-24 10:17 猫七的blog 阅读(188) 评论(0) 推荐(0) 编辑
摘要:人类使用文本,计算机使用字节序列。 三明治原则 解码:把字节序列变成人类可读的文本字符串的过程 编码:把字符串变成用于存储或传输的字符序列的过程。 >>> open('cafe.txt', 'w', encoding='utf_8').write('café') 4 >>> open('cafe.t 阅读全文
posted @ 2020-07-21 17:14 猫七的blog 阅读(178) 评论(0) 推荐(0) 编辑
摘要:关键词提取 关键词的定义:这是一个仁者见仁,智者见智的问题。 一:词频统计 通过统计文章中反复出现的词语。 词频统计的流程:分词、停用词过滤、按词频取前n个。(m个元素取前n个元素通常利用最大堆解决。其复杂度为O(mlogn)) 缺点:高频词并不等价于关键词。 二:使用TF-IDF(词频-倒排文档频 阅读全文
posted @ 2020-07-18 09:45 猫七的blog 阅读(1942) 评论(0) 推荐(0) 编辑
摘要:将元组作为一个记录存入列表中: traveler_ids=[('USA','311'),('BRA','342'),('ESP','566')] for passport in sorted(traveler_ids): print("%s%s"%passport)#元组的拆包 元组拆包: city 阅读全文
posted @ 2020-07-14 23:16 猫七的blog 阅读(127) 评论(0) 推荐(0) 编辑
摘要:什么是词典分词: 词典分词是最简单、最常见的分词算法,它是一套仅需一部词典和一套查词典的规则。 什么是词: 语言学的定义:具有独立意义的最小单位。这太模糊了,”最小单位”到底什么是最小呢? 基于词典的中文分词法中对于词的定义:,在词典中的字符串才是词,词典之外的不是词。 根据齐夫定律:一个“不容易” 阅读全文
posted @ 2020-07-14 22:01 猫七的blog 阅读(403) 评论(0) 推荐(0) 编辑
摘要:TextRank是啥: 一种用于文本的基于图的排序算法。 优点: 不需要学习训练。 模型原理: TextRank可以表示为一个有向有权图G=(V,E),图中任何两点Vi 和Vj之间的边的权重为wji,对于一个给定的点Vi ,In(Vi )为指向该点的点集合。out(Vi )为点Vi指向的点集合。 点 阅读全文
posted @ 2020-07-14 14:49 猫七的blog 阅读(816) 评论(2) 推荐(0) 编辑
摘要:Hive是个啥? 用类似sql语句实现对分布式存储系统的数据读写、管理功能的软件。HIVE不同于RDBMS(一般指关系数据库管理系统) Hive特点 1.使用类sql语句分析大数据,避免借助MapReduce程序分析数据 2.数据存储在HDFS上,不是Hive软件上(所以schema变更的时候,仅仅 阅读全文
posted @ 2020-07-13 10:24 猫七的blog 阅读(313) 评论(0) 推荐(0) 编辑
摘要:python常见序列类型 容器序列: list、tuple、collections.deque 可以存放不同类型的数据。 扁平序列: str、bytes、bytearray、memoryview和array.array 只能容纳一种类型数据。 容器序列存放的是对象的引用,扁平序列存放的是值 列表推导 阅读全文
posted @ 2020-07-13 09:38 猫七的blog 阅读(106) 评论(0) 推荐(0) 编辑
摘要:机器学习相关有关术语 模型:模型是用来指导机器自动学习出另一个算法的“元算法”。 特征:将事物的特点转化的数值。 特征提取:将事物的特点转化为数值类型的特征,然后让算法根据数据自动得到特征之间的权重。权重又称模型参数。 特征模板:通过程序定义一套模板提取特征,把所有可能的特征全部覆盖。 特征工程:如 阅读全文
posted @ 2020-07-12 16:52 猫七的blog 阅读(229) 评论(0) 推荐(0) 编辑
摘要:自然语言处理系统的输入源:语音,图像,文本。 语音识别:将语音经过识别后转化成文本。 光学字符识别:将图像中的字符识别后转化成文本。 得到文本后我们会围绕词语分析,这一步称为词法分析。 词法分析的主要任务: 中文分词:将文本分成有意义的词语。 词性标注:确定词语的类别和浅层的歧义消除。 命名实体识别 阅读全文
posted @ 2020-07-11 19:19 猫七的blog 阅读(187) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示