山竹小果 - 博客园

2020年1月7日

摘要：多类分类(Multiclass classification): 表示分类任务中有多个类别, 比如对一堆水果图片分类, 它们可能是橘子、苹果、梨等. 多类分类是假设每个样本都被设置了一个且仅有一个标签: 一个水果可以是苹果或者梨, 但是同时不可能是两者多标签分类(Multilabel classi 阅读全文

posted @ 2020-01-07 20:30 山竹小果阅读(3200) 评论(0) 推荐(2) 编辑

Python | numpy | np.split()与np.array_split()函数

摘要： np.split() 均等分割，不均等会报错np.array_split() 不均等分割，不会报错 split(ary, indices_or_sections, axis=0) :把一个数组从左到右按顺序切分参数： ary:要切分的数组 indices_or_sections:如果是一个整数，就阅读全文

posted @ 2020-01-07 20:09 山竹小果阅读(7889) 评论(2) 推荐(2) 编辑

数据清洗的方法

摘要：数据清洗一是为了解决数据质量问题，二是让数据更加适合做挖掘一、解决数据质量问题数据的完整性，比如人的属性中缺少性别、籍贯、年龄等数据的唯一性，比如不同来源的数据出现重复的情况数据的权威性，比如同一个指标出现多个来源的数据，且数值不一样数据的合法性，比如数据与常识不符，市区内开车速度到达了4 阅读全文

posted @ 2020-01-07 19:54 山竹小果阅读(1093) 评论(0) 推荐(0) 编辑

C++ | priority_queue的用法（含自定义排序方式）

摘要： priority_queue本质是一个堆。 1. 头文件是#include<queue> 2. 关于priority_queue中元素的比较模板申明带3个参数：priority_queue<Type, Container, Functional>，其中Type 为数据类型，Container为保存阅读全文

posted @ 2020-01-07 19:39 山竹小果阅读(21749) 评论(0) 推荐(7) 编辑

2019年12月30日

NLP | 序列标注总结

摘要：简介序列标注（Sequence Tagging）是一个比较简单的NLP任务，但也可以称作是最基础的任务。序列标注的涵盖范围是非常广泛的，可用于解决一系列对字符进行分类的问题，如分词、词性标注、命名实体识别、关系抽取等等。有很多开源的中文分词工具，jieba、pkuseg、pyhanlp... 序阅读全文

posted @ 2019-12-30 20:05 山竹小果阅读(13835) 评论(0) 推荐(3) 编辑

2019年12月24日

git 使用 | 合并多个commit

摘要：我的需求：在提交PR的时候，想把多个commit合并成一个commit。解决：首先在github中（或本地git log）查找到要合并的所有commit之前的commit的版本号：例如：如需合并红色commit及其之后的commit，需要获取的是蓝色的commit。然后： git res 阅读全文

posted @ 2019-12-24 19:43 山竹小果阅读(2218) 评论(0) 推荐(0) 编辑

2019年12月14日

论文阅读 | Transformer-XL: Attentive Language Models beyond a Fixed-Length Context

摘要： 0 简述 Transformer最大的问题：在语言建模时的设置受到固定长度上下文的限制。本文提出的Transformer-XL，使学习不再仅仅依赖于定长，且不破坏时间的相关性。 Transformer-XL包含segment-level 循环机制和positional编码框架。不仅可以捕捉长时依赖阅读全文

posted @ 2019-12-14 21:40 山竹小果阅读(1273) 评论(0) 推荐(1) 编辑

增量学习中的自我训练

摘要：自我训练是一种增量算法(incremental algorithm)：场景：半监督学习，具备一小部分有标记样本和大量未标记样本，通常存在大量样本标注困难的问题。基本流程： 1. 最初，使用少量标记数据构建单个分类器。 2. 然后，迭代地预测未标记样本的标签。 3. 通过2中预测结果的可信程度对阅读全文

posted @ 2019-12-14 18:00 山竹小果阅读(650) 评论(0) 推荐(0) 编辑

半监督学习和直推学习的区别

摘要：直推学习实际上是半监督学习的一部分。如果用来学习的数据中未标记数据就是最终要预测的数据，那么就是直推学习；如果不知道最后用来预测的数据是什么，就是单纯的半监督学习。阅读全文

posted @ 2019-12-14 17:41 山竹小果阅读(876) 评论(0) 推荐(0) 编辑

2019年12月12日

NLP | 算法学习资料整理

摘要：整理一些自己需要打卡的学习资料。阅读全文

posted @ 2019-12-12 17:16 山竹小果阅读(607) 评论(0) 推荐(1) 编辑

公告