python - 随笔分类(第2页) - 今夜无风

利用局部敏感哈希改进推荐系统实时性

摘要：传统的基于协同过滤的推荐系统在实时性方面的弊端面对具有大规模高维稀疏矩阵特征的用户-项目历史评分矩阵，传统的单纯的基于协同过滤的推荐系统存在计算量大，扩展性不强，推荐效率低等问题，严重影响实时推荐系统的实现，因此本文尝试在现有基于协同过滤的推荐系统上，引入局部敏感哈希(Local-Sensitiv 阅读全文

posted @ 2020-03-19 14:39 今夜无风阅读(939) 评论(0) 推荐(0) 编辑

局部敏感哈希算法介绍

摘要：转载至：https://blog.csdn.net/weixin_43336415/article/details/84898213 阅读全文

posted @ 2020-03-19 14:13 今夜无风阅读(259) 评论(0) 推荐(0) 编辑

为什么要用局部敏感哈希

摘要：一.题外话虽然是科普，不过笔者个人认为大道至简，也就是说越简单的东西很可能越值得探讨，或者另外一种说法越简单的东西越不好讲解；其实笔者认为这就是《编程之美》所要传递的——大道至简。软件构建老师给我推荐的《走出软件作坊》还没看呢。二.概述高维数据检索（high-dimentional retr 阅读全文

posted @ 2020-03-19 10:58 今夜无风阅读(285) 评论(0) 推荐(0) 编辑

关键词快速匹配范例

摘要：在进行文本分类时，仅仅依靠模型是得到满意的效果，需要结合关键词提高精度，一个例子如下： df = pd.read_excel(file_name, encoding='utf8') text = df.values.tolist() # key_words = ['牛肉','猪肉','鸡肉'] ke 阅读全文

posted @ 2020-03-16 09:23 今夜无风阅读(415) 评论(0) 推荐(0) 编辑

StratifiedKFold实现分层抽样

摘要：当你要处理一个任务，比如说分类，手上就会有一批训练集和一批测试集，测试集使用来最终的评测。为了能更好的训练一个model并进行有效评估，首先要做的是将手头上的训练集划分出一个验证集，用以验证模型之前的k折交叉验证没有考虑到标签分布的问题，或者干脆就random一批验证集，其实这样最终的模型会有隐患阅读全文

posted @ 2020-03-04 14:38 今夜无风阅读(3110) 评论(0) 推荐(0) 编辑

Windows 平台下 pip 下载whl第三方库

摘要：批量下载requirements.txt中的第三方库命令： pip wheel -w target_file_path -r requirements.txt 在windows环境中下载linux需要的包，通过 pip download 命令： pip download -d . torch==1 阅读全文

posted @ 2020-03-04 10:42 今夜无风阅读(693) 评论(0) 推荐(0) 编辑

Adversarial Training Methods For Semi-Supervised Text Classification 虚拟对抗训练思路指引

摘要：模型搞到这时候，就是要以不断提升泛化力和鲁棒性，当今两个主流的方法是（1）知识蒸馏；（2）对抗学习本节主要说对抗训练，它是一种能够有效提高模型鲁棒性和泛化能力的训练手段，基本原理：在原始输入上增加对抗扰动，得到对抗样本，再利用对抗样本进行训练，从而提高模型表现。在自然语言处理中，这个任务处理的就阅读全文

posted @ 2020-03-03 17:17 今夜无风阅读(1209) 评论(0) 推荐(0) 编辑

MNIST 数据加载

摘要：import numpy as np from matplotlib import pyplot as plt from torchvision import datasets, transforms def softmax_t(x, t): x_exp = np.exp(x /t) return 阅读全文

posted @ 2020-03-02 12:21 今夜无风阅读(433) 评论(0) 推荐(0) 编辑

深度学习模型压缩-知识蒸馏工程实践

摘要：学生模型以较少的参数学习老师的分布，在老师的知道下获得性能提升，可以作为模型压缩的一种思路，示例代码如下： """ Function：knowledge distillation """ import math import torch import torch.nn as nn import to 阅读全文

posted @ 2020-02-29 17:23 今夜无风阅读(1265) 评论(6) 推荐(1) 编辑

softmax、log_softmax、NLLLoss和交叉熵损失对比分析

摘要：softmax(x) 函数：输入一个实数向量并返回一个概率分布 log_softmax(x) 函数：对经过softmax的函数经过一次对数运算 NLLLoss 损失：负对数似然损失，negative log likelihood loss，若𝑥𝑖=[𝑞1,𝑞2,...,𝑞𝑁]xi=[q1 阅读全文

posted @ 2020-02-29 10:19 今夜无风阅读(3611) 评论(0) 推荐(0) 编辑

深度学习模型-快速构建词典和id的映射

摘要：直接上代码 from collections import Counter import numpy as np text = 'I love china. the dog on the ground' text = text.split() # print(text) vocab = dict(C 阅读全文

posted @ 2020-02-26 16:02 今夜无风阅读(645) 评论(0) 推荐(0) 编辑

预训练模型知识收集-持续更新

摘要：预训练文本分类地址： https://www.cnblogs.com/jiangxinyang/p/10241243.html https://www.cnblogs.com/zhouxiaosong/p/11384197.html 快速适配下游任务的工程代码：https://github.com/ 阅读全文

posted @ 2020-01-16 20:58 今夜无风阅读(221) 评论(0) 推荐(0) 编辑

无互联网情况下安装python第三方库

摘要：正如我前面博文所提到的，公司要求内外网隔离。在国产化设备适配时，要求设备一律不得连接互联网，要用tf环境推理，不得不安装基本环境 1）源码安装将你所需要的所有第三方库打包，放入一个文件夹下，类型：.tar.gz或者.zip 2）注意依赖包的先后顺序有些包是有先后依赖的，如在用到numpy、sci 阅读全文

posted @ 2020-01-15 10:49 今夜无风阅读(1368) 评论(0) 推荐(0) 编辑

快速新建python虚拟环境，进行产品开发

摘要：任务：在新环境下部署一套python环境，使用tf进行推理描述：最近在做国产化设备适配，操作系统：银河麒麟，内核：Linux-4.4.58XXX，CPU：四核 phytium FT1500a 64bit，内存：8G。主要是因为ARM架构，需要将原有工程做移植测试，观察之前的框架使用情况。面临的问阅读全文

posted @ 2020-01-14 09:31 今夜无风阅读(479) 评论(0) 推荐(0) 编辑

文本摘要生成方法

摘要：最近在搞聊天数据分析，对文本摘要有需求，学习一下该方法。一、文本摘要(Document Summarization) 文本摘要，一般地我们会把它分成抽取式文本摘要和生成式文本摘要。就目前的形势而言，工业界应用广泛的还是抽取式文本摘要。抽取式文本摘要的优点很多，主题不易偏离、适应性广、速度快。抽取阅读全文

posted @ 2019-12-04 17:36 今夜无风阅读(4896) 评论(0) 推荐(0) 编辑

python 散点图上给每个点打标签方便看到数据

摘要：在聚类时我们需要看到数据的分布情况，更直观的观察数据，可以使用这个。在遇到中文乱码时，可以使用如下代码：阅读全文

posted @ 2019-11-26 19:05 今夜无风阅读(9297) 评论(0) 推荐(0) 编辑

从语料中找出低频词-去除无用信息

摘要：1.做文本聚类时，有些低频词是分词错误或者无用信息，前期需要处理掉关键代码：阅读全文

posted @ 2019-11-26 09:56 今夜无风阅读(1146) 评论(0) 推荐(0) 编辑

pytorch seq2seq模型示例

摘要：以下代码可以让你更加熟悉seq2seq模型机制参考：https://blog.csdn.net/weixin_43632501/article/details/98525673 阅读全文

posted @ 2019-11-07 11:34 今夜无风阅读(2205) 评论(0) 推荐(0) 编辑

jiagu-工具使用

摘要：比较好的一套处理工具吧，感谢作者，原文地址：https://github.com/ownthink/Jiagu 练习一下使用阅读全文