09 2018 档案
摘要:所谓引用就是为对象起一个别名。例如变量b = &a,b就是a的一个引用。对b的任何操作等同于对a的操作,也就是说,如果你改变了b的值,同时a的值也会发生改变。b就是a的另外一个名字,他们实质是同一个变量。就好比是同一个人,只不过穿着不同的衣服而已。至于引用的用处,给你举一个简单的例子,比如一个交换两
阅读全文
摘要:说白了,super的使用就是要子类要调用父类的方法,我们就用super,那你要有调用的规范,我们明白这个规范就可以了。 在python2和python3中,调用方法不同,注意就是了。Python3.x 和 Python2.x 的一个区别是: Python 3 可以使用直接使用 super().xxx
阅读全文
摘要:我们在模型训练的时候,每次分minbatch个数据进行训练,首先我们要随机地从中随机选取这么多个数据,有没有一套好的封装函数能够处理呢?有。我平时就遇到好多需要shuffle的地方,今天就总结一下这个函数,方便以后使用,提供给大家。直接上代码吧:
阅读全文
摘要:有一种坑叫做发财黄金坑,这个坑是用来过的,不是用来跳的,当你过来了就会发财。 黄金坑在投资领域中出现的情形: 1.前期价格急速下跌或者长期下跌,之后股价横盘整理,没有再出现强烈的下跌趋势。此时说明股价已经跌至谷底,不会再跌了。 2.既然股价不会再跌,那么上升的可能就会增大,及时关注15分钟K线走势,
阅读全文
摘要:人们都说Chainer是一块非常灵活you要用的框架,今天接着项目里面的应用,初步接触一下,涨涨姿势,直接上源码吧,看着好理解。其实跟Tensorflow等其他框架都是一个套路,个人感觉更简洁了。
阅读全文
摘要:我觉得都可以进行分隔,但最大的不同就是一个返回list,一个返回字符串
阅读全文
摘要:1 """ 2 执行lda2vec.ipnb中的代码 3 模型LDA 4 功能:训练好后模型数据的可视化 5 """ 6 7 from lda2vec import preprocess, Corpus 8 import matplotlib.pyplot as plt 9 import numpy as np 10 # %matplotlib inl...
阅读全文
摘要:np.argsort(x):返回数据x从小到大的索引值,记住是一个索引值。当你想获取从小到大的数据的时候,用到这个 data[::-1]:对数据data进行倒转 list是通过下标访问的,我们可以使用已经获得的下标获取list里面的数据 快速的将list保存到字典数据中
阅读全文
摘要:1)Numpy能够读写磁盘上的文本数据或二进制数据。将数组以二进制格式保存到磁盘np.load和np.save是读写磁盘数组数据的两个主要函数,默认情况下,数组是以未压缩的原始二进制格式保存在扩展名为.npy的文件中。 import numpy as npa=np.arange(5)np.save(
阅读全文
摘要:1 """ 2 1.在自然语言处理中常常使用预训练的word2vec,这个预训练的词向量可以使用google的GoogleNews-vectors-negative300.bin 3 2.GoogleNews-vectors-negative300.bin是训练好的300维的新闻语料词向量 4 3.本函数的作用就是把一个词转换成词向量,以供我们后期使用。没有在该w...
阅读全文
摘要:在我们写程序的时候需要记录日志信息,可以用到logging.basicConfig函数
阅读全文
摘要:如果说经历了一天的上涨现在再去追多现在肯定是不适合的,那么第二天要择机选择短空处理
阅读全文
摘要:当你读取到DataFrame的数据时,想去定位某一个数据项,可以使用loc方法进行查找,之后你可以赋值给他。
阅读全文
摘要:我们在统计数据的长度或者个数,不用统计去专门获取数值,而是用index这个数据获取即可,DataFrame的index直接就是最前面的索引号,如果要统计列的个数,使用DataFrame.colums获取列的索引号。举例如下:
阅读全文
摘要:最近在做测试,公司的产品做成了exe,让我去测试,C++写的程序啊,我直接用python调用那个exe,也有个坑,必须要到exe在的那个目录下,然后才能调用:
阅读全文
摘要:在此我用的concat作用是加入新的记录,存储数据来用过的,不知道数据量大时候,效率会怎样 注意:要有ignore_index=True,要不然你的DataFrame的索引一直都会是零!
阅读全文
摘要:我们在使用Pandas时候,前提需要一个新的DataFrame,需要首先初始化一个: 那么可以根据字典形式初始化: 必须包含index,不然会报错
阅读全文
摘要:相当于添加一行记录,这个方法也是比较管用的:
阅读全文
摘要:有时我们需要字典中数值最大的那个键的名字,使用max(dict, key=dict.get)函数非常的方便 获取之后你便可以随意使用你的数据了
阅读全文
摘要:使用re来将一些字符替换掉,比如替换为空: 非常方便地替换掉你需要替换或者取消的字符
阅读全文
摘要:对于表中的每一个记录,我们有时候需要提取特殊的或者你需要的记录,要提前做一个表的筛选,之后再对你选出的记录做一个修改,此时你必须使用SQL的子查询操作。如:修改id=5的记录的strContent字段信息。 代码:
阅读全文
摘要:Mysql中随机获取一行数据: SQLite中随机获取一行数据: limit后面跟你要随机生成多少的数据
阅读全文
摘要:关于这个问题还是困扰了很久,我生成了一些样本数据,打算保存到csv文件,之后用pandas的命令: 这样的方式保存后,你用自己的exel打开该文件,一堆乱码,怎么办?使用如下方式解决 以后只要保存含有中文字符的这样存就可以了
阅读全文
摘要:直接上代码吧: 输出: 本文参考:https://blog.csdn.net/the_lastest/article/details/79093407
阅读全文
摘要:LightGBM 可以使用一个 pairs 的 list 或一个字典来设置参数: 1.Booster提升器的参数: 2.可以制定多eval指标: 模型的训练:需要一个params参数和训练数据集 训练完成后存储模型: 模型使用如下方式来加载: 预测:已将训练或者加载好的模型都可以对数据集进行预测 在
阅读全文
摘要:训练数据要放到Dataset中供lgb使用,构建数据如下: 很清晰的构建数据方式,记住这种用法 指定 feature names(特征名称)和 categorical features(分类特征): 分类特征可以人为制定,使用categorical_feature选取你制定的名称
阅读全文
摘要:昨天训练了性别和年龄预测的模型。给我的启发很大。你的侧重点要着眼于能够适用于工业界的模型,训练耗时少,占用内存小,效率高,支持海量数据分析能力。虽然深度学习很火,但要普遍适用于广大工业界还有一段距离。 1.模型GBDT,XGBoost,LightGBM都是非常不错的模型,需要重点研究,要吃透其中的原
阅读全文
摘要:用来生成DataFrame数据 1.说明: class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False) Two-dimensional size-mutable, potentially he
阅读全文
摘要:对于数据样本的标签,如果我们事先不知道这个样本有多少类别,那么可以对数据集的类别列进行统计,这时我们用pandas的Categorical方法就非常快的实现。 1.说明: 你的数据最好是一个series,之后,pd.Categorical(series),得到分类的对象,使用categories或者
阅读全文
摘要:用于模型的训练 1.说明: lightgbm.train(params, train_set, num_boost_round=100, valid_sets=None, valid_names=None, fobj=None, feval=None, init_model=None, featur
阅读全文
摘要:最近使用了LightBGM的Dataset,记录一下: 1.说明: classlightgbm.Dataset(data, label=None, reference=None, weight=None, group=None, init_score=None, silent=False, feat
阅读全文
摘要:就是将一个值替换为另一个值,以前我用的是赋值方式,这里应该效率会高。 1.说明: 语法:replace(self, to_replace=None, value=None, inplace=False, limit=None, regex=False, method='pad', axis=None
阅读全文
摘要:Tqdm 是一个快速,可扩展的Python进度条,可以在 Python 长循环中添加一个进度提示信息,用户只需要封装任意的迭代器 tqdm(iterator)。 根据要求安装依赖即可。 可以很方便的在数据训练的时候查看你的训练进度:
阅读全文
摘要:数据合并时可以使用merge方法,对两个dataFrame根据某一个series合并,这个方法非常好用,只要找到了合并的标准,新的数据就可以重构出来。 1.命令: pd.merge() on:列名,join用来对齐的那一列的名字,用到这个参数的时候一定要保证左表和右表用来对齐的那一列都有相同的列名。
阅读全文
摘要:当你要删除某一行或者某一列时,用drop函数,它不改变原有的df中的数据,而是返回另一个dataframe来存放删除后的数据。 1.命令: df.drop() 删除行:df.drop('apps') 删除列:df.dorp('col', axis=1),删除列要加axis=1,默认是删除行的 2.使
阅读全文
摘要:文章1 Generative and Discriminative Text Classification with Recurrent Neural Networks 时间:2017 机构:Google DeepMind 生成模型:generative 判别模型:discrimination 作者
阅读全文
摘要:concat方法,用于拼接pandas数据,用处比较大 函数: 参数说明: objs:pandas数据,可以是series,dataFrame,或者是panel构成的序列 axis:需要合并拼接的轴,0表示行,1表示列 join:连接的方式,inner,outer 例子: 上面是将两个dataFra
阅读全文
摘要:前一段时间做了一些项目,把一些笔记放在了txt中,现分享出来,自己也能够时长预习。
阅读全文
摘要:将本人使用过的一些操作记录下来 1.读取数据,使用:data = pd.read_csv('./data/file.csv') 2.数据处理,如果你要修改某一个数据,其实把DATAFRAME数据看做是一个二维数组,先找到第一维数据,再找到第二维数据,赋值修改即可。要用到一个函数:loc,定位 如:
阅读全文
摘要:pandas是python非常好用的一个数据结构包,包含有许多数据操作的方法,能够让你快速简便的提取和保存数据,节省你在这块的数据流操作耗时,从而让你更加专注于逻辑的设计和算法的设计。很多算法的相关库函数的输入数据结构都要求是pandas数据,或者有该数据的接口。
阅读全文
摘要:经过最近一段时间的实际工作发现,原来只是认为Mysql和sqlite是分别独立的,数据传输和共享或有障碍,其实这是一个误区。当我们想要将sqlite中的数据存放到mysql中,最好的方法就是利用中间文件.csv 两个数据库都能够导出.csv文件,我们将.csv文件修改为所需要的数据,然后导入到需要的
阅读全文
摘要:首先给大家来一波福利,在没有连接外网(互联网)的情况下,只有公司内网或者断网情况下,需要安装python的一些依赖,不会操作的同学可能就会遇到麻烦。这里教大家离线安装python依赖。 方法:使用.whl文件安装依赖,网址:https://www.lfd.uci.edu/~gohlke/python
阅读全文
摘要:对于习惯使用C进行开发的朋友们,在看到c++中出现的&符号,可能会犯迷糊,因为在C语言中这个符号表示了取地址符,但是在C++中它却有着不同的用途,掌握C++的&符号,是提高代码执行效率和增强代码质量的一个很好的办法。 引用是C++引入的新语言特性,是C++常用的一个重要内容之一,正确、灵活地使用引用
阅读全文
摘要:在学习C++的过程中我们经常会用到.和::和:和->,在此整理一下这些常用符号的区别。 1、A.B则A为对象或者结构体; 2、A->B则A为指针,->是成员提取,A->B是提取A中的成员B,A只能是指向类、结构、联合的指针; 3、::是作用域运算符,A::B表示作用域A中的名称B,A可以是名字空间、
阅读全文
摘要:一、什么是单元测试? 为了测试某个类中的某一个方法能否正常工作,而写的测试代码。 单元的定义:代码中可度量的最小单元(函数/方法); 是否正常工作:不同的输入对应的输出是否与预期一致。 二、单元测试有必要吗? 1 对是否有必要写单元测试的疑惑 没有价值:不做单元测试一样地开发,并没有什么问题(解释:
阅读全文
摘要:mysql数据库的查询结果输出的是一个记录,这一个记录是以字典的形式存储的,所以获取字段时要用字典提取数据的形式获取字段信息: 查询的代码:
阅读全文
摘要:1.初步安装mysql,插入中文字符,出现的???的形式 终端提示: pymysql.err.InternalError: (1366, "Incorrect string value: '\\xE4\\xBD\\xA0\\xE5\\xA5\\xBD' for 2.参考博文: https://www
阅读全文
摘要:最近领导让我写单元测试,进行别人程序的单元测试,代码我都不清楚,测个鸟啊。先不说,还是老老实实的测试吧,查找了资料,总结了以下几个要点: 1.单元测试的目的:实现暴露隐藏的缺陷 2.单元测试的用例文档包含两个部分:介绍和测试用例两个部分 2.测试用例:为某个特殊目标而制定的一组输入、执行条件以及预期
阅读全文