Kayden_Cheung - 博客园

2020年10月9日

摘要：简介本次作业所用到的数据为Twitter上的推文，训练数据会被打上正面或负面的标签，最终我们要对无标签的句子分类。带标签的训练数据，中间的+++$+++只是分隔符，共200000条数据。不带标签的训练数据，共1178614条数据。测试数据，共200000条数据。数据处理读数据 impor 阅读全文

posted @ 2020-10-09 20:47 Kayden_Cheung 阅读(879) 评论(0) 推荐(0) 编辑

LSTM 的使用（Pytorch）

摘要： LSTM 参数 input_size:输入维数 hidden_size:输出维数 num_layers:LSTM层数，默认是1 bias:True 或者 False，决定是否使用bias, False则b_h=0. 默认为True batch_first:True 或者 False，因为nn.lst 阅读全文

posted @ 2020-10-09 16:31 Kayden_Cheung 阅读(3659) 评论(0) 推荐(1) 编辑

torch.nn.Embedding使用

摘要：在RNN模型的训练过程中，需要用到词嵌入，而torch.nn.Embedding就提供了这样的功能。我们只需要初始化torch.nn.Embedding(n,m)，n是单词数，m就是词向量的维度。一开始embedding是随机的，在训练的时候会自动更新。举个简单的例子： word1和word2是阅读全文

posted @ 2020-10-09 15:15 Kayden_Cheung 阅读(1691) 评论(0) 推荐(1) 编辑

2020年10月7日

word2vec公式推导及python简单实现

摘要：简介 word2vec实现的功能是将词用$n$维的向量表示出来，即词向量。一般这个词向量的维度为100~300。 word2vec有两种训练模型： (1) CBOW：根据中心词$w(t)$周围的词来预测中心词 (2) Skip-gram：根据中心词$w(t)$来预测周围词 word2vec有两种加速阅读全文

posted @ 2020-10-07 21:35 Kayden_Cheung 阅读(1026) 评论(0) 推荐(0) 编辑

2020年10月4日

Pytorch官方教程：用RNN实现字符级的生成任务

摘要：数据处理传送门：官方教程数据从上面下载。本次的任务用到的数据和第一次一样，还是18个不同国家的不同名字。但这次需要根据这些数据训练一个模型，给定国家和名字的首字母时，模型可以自动生成名字。首先还是对数据进行预处理，和第一个任务一样，利用Unicode将不同国家的名字采用相同的编码方式，因为要阅读全文

posted @ 2020-10-04 08:51 Kayden_Cheung 阅读(626) 评论(0) 推荐(0) 编辑

2020年10月3日

Pytorch官方教程：用RNN实现字符级的分类任务

摘要：数据处理数据可以从传送门下载。这些数据包括了18个国家的名字，我们的任务是根据这些数据训练模型，使得模型可以判断出名字是哪个国家的。一开始，我们需要对名字进行一些处理，因为不同国家的文字可能会有一些区别。在这里最好先了解一下Unicode：可以看看：Unicode的文本处理二三事 NLP哪里阅读全文

posted @ 2020-10-03 13:04 Kayden_Cheung 阅读(537) 评论(0) 推荐(0) 编辑

2020年9月27日

Numpy梯度下降反向传播代码实现

摘要：代码 # -*- coding: utf-8 -*- import numpy as np # N是批量大小; D_in是输入维度; # 49/5000 H是隐藏的维度; D_out是输出维度。 N, D_in, H, D_out = 64, 1000, 100, 10 # 创建随机输入和输出数据阅读全文

posted @ 2020-09-27 20:39 Kayden_Cheung 阅读(963) 评论(0) 推荐(0) 编辑

2020年9月25日

李宏毅机器学习HW3（CNN）

摘要：问题引入使用cnn进行食物分类，给出的图片如上所示，前面的是分类，后面的是编号。数据处理首先读入图片，并进行缩放处理，使像素数相同。 def readfile(path, flag): """ :param path: 图片所在文件夹位置 :param flag: 1：训练集或验证集 0：测试阅读全文

posted @ 2020-09-25 23:25 Kayden_Cheung 阅读(1578) 评论(0) 推荐(0) 编辑

2020年9月24日

OpenCV显示图片—dtype=np.uint8

摘要：今天被这个问题折腾了好几个小时，难受。如果我们读取了图片之后又想把它显示出来，那么存储的数据格式必须为np.uint8，否则之后是显示不出来的。如下形式： x = np.zeros((len(image_dir), 128, 128, 3), dtype=np.uint8) 阅读全文

posted @ 2020-09-24 16:21 Kayden_Cheung 阅读(2527) 评论(0) 推荐(0) 编辑

2020年9月20日

李宏毅机器学习HW2（逻辑回归）

摘要：问题引入很简单，就是二分类问题。数据处理首先读入数据 def read_file(): """读入数据""" x_train = pd.read_csv('X_train.csv') x_train = x_train.iloc[:, 1:].to_numpy() y_train = pd.r 阅读全文

posted @ 2020-09-20 21:14 Kayden_Cheung 阅读(635) 评论(0) 推荐(0) 编辑

2020年9月19日

逻辑回归和线性回归的区别

摘要：直接上李宏毅老师上课时的总结：阅读全文

posted @ 2020-09-19 15:07 Kayden_Cheung 阅读(375) 评论(0) 推荐(0) 编辑

李宏毅机器学习HW1（梯度下降）

摘要：问题引入作业所给的数据是某地的观测记录，每个月取前20天的数据，观测数据共有18个指标，每小时记录这18个指标的值，共记录12个月。现在从剩下的资料中取出连续的9小时的观测数据，请预测第10个小时的PM2.5指标的值。数据处理先将csv文件内容读入进来，首先需要注意的是RAINFALL指标还阅读全文

posted @ 2020-09-19 09:40 Kayden_Cheung 阅读(801) 评论(0) 推荐(0) 编辑

2020年5月2日

推荐系统实践—ItemCF实现

摘要：参考：https://github.com/Lockvictor/MovieLens-RecSys/blob/master/usercf.py#L169 数据集本文使用了MovieLens中的ml-100k小数据集，数据集的地址为：传送门该数据集中包含了943个独立用户对1682部电影做的1000 阅读全文

posted @ 2020-05-02 11:28 Kayden_Cheung 阅读(1134) 评论(1) 推荐(1) 编辑

推荐系统实践—UserCF实现

摘要：参考：https://github.com/Lockvictor/MovieLens-RecSys/blob/master/usercf.py#L169 数据集本文使用了MovieLens中的ml-100k小数据集，数据集的地址为：传送门该数据集中包含了943个独立用户对1682部电影做的1000 阅读全文

posted @ 2020-05-02 09:37 Kayden_Cheung 阅读(776) 评论(0) 推荐(0) 编辑

2019年5月8日

Python稀疏矩阵运算

摘要： import numpy as np import scipy import time import scipy.sparse as sparse t = [1]+[0]*4999 a = scipy.matrix(np.array(t*5000, dtype=float).reshape(5000 阅读全文

posted @ 2019-05-08 22:33 Kayden_Cheung 阅读(982) 评论(0) 推荐(0) 编辑

2019年4月23日

运行python “没有那个文件或目录3” 或 “/usr/local/bin/python3^M: bad interpreter: 没有那个文件或目录” 错误

摘要：原因如果使用的是#!/usr/local/bin/python3这种方式，就会出现 “/usr/local/bin/python3^M: bad interpreter: 没有那个文件或目录” 错误：如果使用的是#!/usr/bin/env python3这种方式，就会出现“没有那个文件或目录3 阅读全文

posted @ 2019-04-23 01:33 Kayden_Cheung 阅读(4529) 评论(0) 推荐(0) 编辑

#!/usr/bin/python3 和 #!/usr/bin/env python3的区别

摘要：脚本语言的第一行指出用什么程序去执行代码。 #!/usr/bin/python3调用/usr/bin下的python3解释器。#!/usr/bin/env python3首先会到env设置里查找python3的安装路径，再调用对应路径下的解释器程序完成操作。阅读全文

posted @ 2019-04-23 01:17 Kayden_Cheung 阅读(1199) 评论(0) 推荐(0) 编辑

2019年4月20日

Redhat更换yum源

摘要： redhat 默认自带的 yum 源需要注册，才能更新，所以对于我们来说需要替换掉redhat的yum源。下文更换为网易的。删除原有的yum rpm -qa|grep yum|xargs rpm -e --nodeps 下载yum安装文件 wget http://mirrors.163.com/c 阅读全文

posted @ 2019-04-20 17:31 Kayden_Cheung 阅读(3875) 评论(0) 推荐(0) 编辑

2019年4月15日

PCA

摘要：参考： [1] 机器学习-白板推导系列（五）-降维（Dimensionality Reduction）阅读全文

posted @ 2019-04-15 20:31 Kayden_Cheung 阅读(147) 评论(0) 推荐(0) 编辑

降维基础

摘要：参考： [1] 机器学习-白板推导系列（五）-降维（Dimensionality Reduction）阅读全文

posted @ 2019-04-15 17:16 Kayden_Cheung 阅读(205) 评论(0) 推荐(0) 编辑

Kayden_Cheung's Blog

对未来的真正慷慨，是把一切献给现在。

公告