上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 20 下一页
摘要: 多类分类(Multiclass classification): 表示分类任务中有多个类别, 比如对一堆水果图片分类, 它们可能是橘子、苹果、梨等. 多类分类是假设每个样本都被设置了一个且仅有一个标签: 一个水果可以是苹果或者梨, 但是同时不可能是两者 多标签分类(Multilabel classi 阅读全文
posted @ 2020-01-07 20:30 山竹小果 阅读(3148) 评论(0) 推荐(2) 编辑
摘要: np.split() 均等分割,不均等会报错np.array_split() 不均等分割,不会报错 split(ary, indices_or_sections, axis=0) :把一个数组从左到右按顺序切分 参数: ary:要切分的数组 indices_or_sections:如果是一个整数,就 阅读全文
posted @ 2020-01-07 20:09 山竹小果 阅读(7736) 评论(2) 推荐(2) 编辑
摘要: 数据清洗一是为了解决数据质量问题,二是让数据更加适合做挖掘 一、解决数据质量问题 数据的完整性,比如人的属性中缺少性别、籍贯、年龄等 数据的唯一性,比如不同来源的数据出现重复的情况 数据的权威性,比如同一个指标出现多个来源的数据,且数值不一样 数据的合法性,比如数据与常识不符,市区内开车速度到达了4 阅读全文
posted @ 2020-01-07 19:54 山竹小果 阅读(1053) 评论(0) 推荐(0) 编辑
摘要: priority_queue本质是一个堆。 1. 头文件是#include<queue> 2. 关于priority_queue中元素的比较 模板申明带3个参数:priority_queue<Type, Container, Functional>,其中Type 为数据类型,Container为保存 阅读全文
posted @ 2020-01-07 19:39 山竹小果 阅读(18297) 评论(0) 推荐(6) 编辑
摘要: 简介 序列标注(Sequence Tagging)是一个比较简单的NLP任务,但也可以称作是最基础的任务。序列标注的涵盖范围是非常广泛的,可用于解决一系列对字符进行分类的问题,如分词、词性标注、命名实体识别、关系抽取等等。 有很多开源的中文分词工具,jieba、pkuseg、pyhanlp... 序 阅读全文
posted @ 2019-12-30 20:05 山竹小果 阅读(13649) 评论(0) 推荐(3) 编辑
摘要: 我的需求: 在提交PR的时候,想把多个commit合并成一个commit。 解决: 首先在github中(或本地git log)查找到要合并的所有commit之前的commit的版本号: 例如: 如需合并红色commit及其之后的commit,需要获取的是蓝色的commit。 然后: git res 阅读全文
posted @ 2019-12-24 19:43 山竹小果 阅读(2212) 评论(0) 推荐(0) 编辑
摘要: 0 简述 Transformer最大的问题:在语言建模时的设置受到固定长度上下文的限制。 本文提出的Transformer-XL,使学习不再仅仅依赖于定长,且不破坏时间的相关性。 Transformer-XL包含segment-level 循环机制和positional编码框架。不仅可以捕捉长时依赖 阅读全文
posted @ 2019-12-14 21:40 山竹小果 阅读(1245) 评论(0) 推荐(1) 编辑
摘要: 自我训练是一种增量算法(incremental algorithm): 场景: 半监督学习,具备一小部分有标记样本和大量未标记样本,通常存在大量样本标注困难的问题。 基本流程: 1. 最初,使用少量标记数据构建单个分类器。 2. 然后,迭代地预测未标记样本的标签。 3. 通过2中预测结果的可信程度对 阅读全文
posted @ 2019-12-14 18:00 山竹小果 阅读(639) 评论(0) 推荐(0) 编辑
摘要: 直推学习实际上是半监督学习的一部分。 如果用来学习的数据中未标记数据就是最终要预测的数据,那么就是直推学习; 如果不知道最后用来预测的数据是什么,就是单纯的半监督学习。 阅读全文
posted @ 2019-12-14 17:41 山竹小果 阅读(865) 评论(0) 推荐(0) 编辑
摘要: 整理一些自己需要打卡的学习资料。 阅读全文
posted @ 2019-12-12 17:16 山竹小果 阅读(604) 评论(0) 推荐(1) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 20 下一页