摘要: 数据标准化/归一化normalization 转自:数据标准化/归一化normalization 这里主要讲连续型特征归一化的常用方法。离散参考[数据预处理:独热编码(One-Hot Encoding)]。 基础知识参考: [均值、方差与协方差矩阵 ] [矩阵论:向量范数和矩阵范数 ] 数据的标准化 阅读全文
posted @ 2018-08-07 14:49 一只天真的小蜗牛 阅读(12840) 评论(0) 推荐(1) 编辑
摘要: Spark MLlib 提供三种文本特征提取方法,分别为TF-IDF、Word2Vec以及CountVectorizer其各自原理与调用代码整理如下: TF-IDF 算法介绍: 词频-逆向文件频率(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度 阅读全文
posted @ 2018-04-25 15:19 一只天真的小蜗牛 阅读(739) 评论(0) 推荐(0) 编辑
摘要: 今天碰到一个问题,就是我用os.path.join()连接两个文件名地址的时候,就比os.path.join("D:\","test.txt")结果是D:\test.txt,并且在我们往里面写东西,然后保存,在这个目录下会生成这个文件,但是如果你不写东西,那么执行这句话之后,在D盘的目录下是不会有这 阅读全文
posted @ 2018-04-25 10:22 一只天真的小蜗牛 阅读(1477) 评论(0) 推荐(0) 编辑
摘要: 描述 Python time strftime() 函数接收以时间元组,并返回以可读字符串表示的当地时间,格式由参数format决定。 语法 strftime()方法语法: 参数 format -- 格式字符串。 t -- 可选的参数t是一个struct_time对象。 返回值 返回以可读字符串表示 阅读全文
posted @ 2018-04-24 17:13 一只天真的小蜗牛 阅读(1031) 评论(0) 推荐(0) 编辑
摘要: 介绍下Python 中 map,reduce,和filter 内置函数的方法: 一:map 说明: 对sequence中的item依次执行function(item),执行结果输出为list。 例子: 二:reduce 说明: 对sequence中的item顺序迭代调用function,函数必须要有 阅读全文
posted @ 2018-04-20 09:44 一只天真的小蜗牛 阅读(140) 评论(0) 推荐(0) 编辑
摘要: 将数组或者矩阵转换成列表,如下: >>> from numpy import *>>> a1 = [[1,2,3],[4,5,6]] #列表>>> a2 = array(a1) #数组>>> a2array([[1, 2, 3], [4, 5, 6]])>>> a3 = mat(a1) #矩阵>>> 阅读全文
posted @ 2018-04-17 09:00 一只天真的小蜗牛 阅读(600) 评论(0) 推荐(0) 编辑
摘要: numpy.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None) 在指定的间隔内返回均匀间隔的数字。 返回num均匀分布的样本,在[start, stop]。 这个区间的端点可以任意的被排除在外。 start  阅读全文
posted @ 2018-04-17 08:56 一只天真的小蜗牛 阅读(1012) 评论(0) 推荐(0) 编辑
摘要: Python多进程编程 阅读目录 1. Process 2. Lock 3. Semaphore 4. Event 5. Queue 6. Pipe 7. Pool 序. multiprocessingpython中的多线程其实并不是真正的多线程,如果想要充分地使用多核CPU的资源,在python中 阅读全文
posted @ 2018-04-13 10:01 一只天真的小蜗牛 阅读(9942) 评论(0) 推荐(1) 编辑
摘要: 1、java中的栈(stack)和堆(heap)是java在内存(ram)中存放数据的地方 2、堆区 存储的全部是对象,每个对象都包含一个与之对应的class的信息。(class的目的是得到操作指令); jvm只有一个heap区,被所有线程共享,不存放基本类型和对象引用,只存放对象本身。 堆的优劣势 阅读全文
posted @ 2018-04-12 14:08 一只天真的小蜗牛 阅读(999) 评论(0) 推荐(0) 编辑