随笔分类 -  python

摘要:传统的基于协同过滤的推荐系统在实时性方面的弊端 面对具有大规模高维稀疏矩阵特征的用户-项目历史评分矩阵,传统的单纯的基于协同过滤的推荐系统存在计算量大,扩展性不强,推荐效率低等问题,严重影响实时推荐系统的实现,因此本文尝试在现有基于协同过滤的推荐系统上,引入局部敏感哈希(Local-Sensitiv 阅读全文
posted @ 2020-03-19 14:39 今夜无风 阅读(939) 评论(0) 推荐(0) 编辑
摘要:转载至:https://blog.csdn.net/weixin_43336415/article/details/84898213 阅读全文
posted @ 2020-03-19 14:13 今夜无风 阅读(259) 评论(0) 推荐(0) 编辑
摘要:一.题外话 虽然是科普,不过笔者个人认为大道至简,也就是说越简单的东西很可能越值得探讨,或者另外一种说法越简单的东西越不好讲解;其实笔者认为这就是《编程之美》所要传递的——大道至简。 软件构建老师给我推荐的《走出软件作坊》还没看呢。 二.概述 高维数据检索(high-dimentional retr 阅读全文
posted @ 2020-03-19 10:58 今夜无风 阅读(285) 评论(0) 推荐(0) 编辑
摘要:在进行文本分类时,仅仅依靠模型是得到满意的效果,需要结合关键词提高精度,一个例子如下: df = pd.read_excel(file_name, encoding='utf8') text = df.values.tolist() # key_words = ['牛肉','猪肉','鸡肉'] ke 阅读全文
posted @ 2020-03-16 09:23 今夜无风 阅读(415) 评论(0) 推荐(0) 编辑
摘要:当你要处理一个任务,比如说分类,手上就会有一批训练集和一批测试集,测试集使用来最终的评测。为了能更好的训练一个model并进行有效评估,首先要做的是将手头上的训练集划分出一个验证集,用以验证模型 之前的k折交叉验证没有考虑到标签分布的问题,或者干脆就random一批验证集,其实这样最终的模型会有隐患 阅读全文
posted @ 2020-03-04 14:38 今夜无风 阅读(3110) 评论(0) 推荐(0) 编辑
摘要:批量下载requirements.txt中的第三方库 命令: pip wheel -w target_file_path -r requirements.txt 在windows环境中下载linux需要的包,通过 pip download 命令: pip download -d . torch==1 阅读全文
posted @ 2020-03-04 10:42 今夜无风 阅读(693) 评论(0) 推荐(0) 编辑
摘要:模型搞到这时候,就是要以不断提升泛化力和鲁棒性,当今两个主流的方法是(1)知识蒸馏;(2)对抗学习 本节主要说对抗训练,它是一种能够有效提高模型鲁棒性和泛化能力的训练手段,基本原理:在原始输入上增加对抗扰动,得到对抗样本,再利用对抗样本进行训练,从而提高模型表现。 在自然语言处理中,这个任务处理的就 阅读全文
posted @ 2020-03-03 17:17 今夜无风 阅读(1209) 评论(0) 推荐(0) 编辑
摘要:import numpy as np from matplotlib import pyplot as plt from torchvision import datasets, transforms def softmax_t(x, t): x_exp = np.exp(x /t) return 阅读全文
posted @ 2020-03-02 12:21 今夜无风 阅读(433) 评论(0) 推荐(0) 编辑
摘要:学生模型以较少的参数学习老师的分布,在老师的知道下获得性能提升,可以作为模型压缩的一种思路,示例代码如下: """ Function:knowledge distillation """ import math import torch import torch.nn as nn import to 阅读全文
posted @ 2020-02-29 17:23 今夜无风 阅读(1265) 评论(6) 推荐(1) 编辑
摘要:softmax(x) 函数:输入一个实数向量并返回一个概率分布 log_softmax(x) 函数:对经过softmax的函数经过一次对数运算 NLLLoss 损失:负对数似然损失,negative log likelihood loss,若𝑥𝑖=[𝑞1,𝑞2,...,𝑞𝑁]xi=[q1 阅读全文
posted @ 2020-02-29 10:19 今夜无风 阅读(3611) 评论(0) 推荐(0) 编辑
摘要:直接上代码 from collections import Counter import numpy as np text = 'I love china. the dog on the ground' text = text.split() # print(text) vocab = dict(C 阅读全文
posted @ 2020-02-26 16:02 今夜无风 阅读(645) 评论(0) 推荐(0) 编辑
摘要:预训练文本分类地址: https://www.cnblogs.com/jiangxinyang/p/10241243.html https://www.cnblogs.com/zhouxiaosong/p/11384197.html 快速适配下游任务的工程代码:https://github.com/ 阅读全文
posted @ 2020-01-16 20:58 今夜无风 阅读(221) 评论(0) 推荐(0) 编辑
摘要:正如我前面博文所提到的,公司要求内外网隔离。在国产化设备适配时,要求设备一律不得连接互联网,要用tf环境推理,不得不安装基本环境 1)源码安装 将你所需要的所有第三方库打包,放入一个文件夹下,类型:.tar.gz或者.zip 2)注意依赖包的先后顺序 有些包是有先后依赖的,如在用到numpy、sci 阅读全文
posted @ 2020-01-15 10:49 今夜无风 阅读(1368) 评论(0) 推荐(0) 编辑
摘要:任务:在新环境下部署一套python环境,使用tf进行推理 描述:最近在做国产化设备适配,操作系统:银河麒麟,内核:Linux-4.4.58XXX,CPU:四核 phytium FT1500a 64bit,内存:8G。主要是因为ARM架构,需要将原有工程做移植测试,观察之前的框架使用情况。 面临的问 阅读全文
posted @ 2020-01-14 09:31 今夜无风 阅读(479) 评论(0) 推荐(0) 编辑
摘要:最近在搞聊天数据分析,对文本摘要有需求,学习一下该方法。 一、文本摘要(Document Summarization) 文本摘要,一般地我们会把它分成抽取式文本摘要和生成式文本摘要。就目前的形势而言,工业界应用广泛的还是抽取式文本摘要。抽取式文本摘要的优点很多,主题不易偏离、适应性广、速度快。 抽取 阅读全文
posted @ 2019-12-04 17:36 今夜无风 阅读(4896) 评论(0) 推荐(0) 编辑
摘要:在聚类时我们需要看到数据的分布情况,更直观的观察数据,可以使用这个。在遇到中文乱码时,可以使用如下代码: 阅读全文
posted @ 2019-11-26 19:05 今夜无风 阅读(9297) 评论(0) 推荐(0) 编辑
摘要:1.做文本聚类时,有些低频词是分词错误或者无用信息,前期需要处理掉 关键代码: 阅读全文
posted @ 2019-11-26 09:56 今夜无风 阅读(1146) 评论(0) 推荐(0) 编辑
摘要:以下代码可以让你更加熟悉seq2seq模型机制 参考:https://blog.csdn.net/weixin_43632501/article/details/98525673 阅读全文
posted @ 2019-11-07 11:34 今夜无风 阅读(2205) 评论(0) 推荐(0) 编辑
摘要:比较好的一套处理工具吧,感谢作者,原文地址:https://github.com/ownthink/Jiagu 练习一下使用 阅读全文
posted @ 2019-10-21 12:01 今夜无风 阅读(2594) 评论(0) 推荐(0) 编辑
摘要:最近通过关键词匹配的方式查找数据中的可用样本,由于速度比较慢,所以想把多线程用上去,提高一下速度。现在熟悉一下基本的操作: 阅读全文
posted @ 2019-10-21 10:05 今夜无风 阅读(315) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示