摘要: import time,datetime #获取今日凌晨的时间 d = datetime.datetime.strptime(str(datetime.date.today()),"%Y-%m-%d")time_sec_float = time.mktime(d.timetuple())print 阅读全文
posted @ 2017-04-05 14:47 光彩照人 阅读(3484) 评论(0) 推荐(0) 编辑
摘要: re.match re.match 尝试从字符串的开始匹配一个模式,如:下面的例子匹配第一个单词。 import retext = "JGood is a handsome boy, he is cool, clever, and so on..."m = re.match(r"(\w+)\s", 阅读全文
posted @ 2017-04-05 14:45 光彩照人 阅读(288) 评论(0) 推荐(0) 编辑
摘要: 1.字典中嵌套字典使用 dict={'a':{1:2,2:3}} print(dict) print(dict['a'][2]) 输出如下: {'a': {1: 2, 2: 3}} 3 2.元组与list区别 1)元组使用小括号(),列表使用方括号[] 2)列表元素可以更改和删除单个元素,而元组既不 阅读全文
posted @ 2017-04-05 14:10 光彩照人 阅读(259) 评论(0) 推荐(0) 编辑
摘要: 一、定义 随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为 阅读全文
posted @ 2017-04-01 15:22 光彩照人 阅读(1398) 评论(0) 推荐(0) 编辑
摘要: 一、冒泡排序 #完整的冒泡排序def bubbleSort(arr): for i in range(len(arr)):#控制轮次 for j in range(len(arr)-1-i): #真正进行比较,数大的一层层下沉 change=False #比较前设置为False if arr[j]> 阅读全文
posted @ 2017-03-17 11:00 光彩照人 阅读(1461) 评论(0) 推荐(0) 编辑
摘要: 一、数据预处理 1)缺失数据处理。对于缺失数据,可以取平均值。如果大量样本都缺失该特征,可以直接去掉该特征。 2)特征转换。将字符串特征转换为对应的数字表示。 3)归一化处理 4)数据转换。将偏态数据转换成尽量符合正态分布特征。 二、特征工程 分析特征对最终模型的影响程度,如果是回归问题,就看特征对 阅读全文
posted @ 2017-03-17 09:40 光彩照人 阅读(721) 评论(0) 推荐(0) 编辑
摘要: L0范数是指向量中非0的元素的个数。 L1范数是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子”(Lasso regularization)。 L2范数是指向量各元素的平方和然后求平方根。 1. 什么是稀疏解? yiyi没有关系或者不提供任何信息的,在最小化目标函数的时候考虑xixi这些额外 阅读全文
posted @ 2017-03-14 10:31 光彩照人 阅读(1505) 评论(0) 推荐(1) 编辑
摘要: 一、如何学习大规模数据集? 在训练样本集很大的情况下,我们可以先取一小部分样本学习模型,比如m=1000,然后画出对应的学习曲线。如果根据学习曲线发现模型属于高偏差,则应在现有样本上继续调整模型,具体调整策略参见第六节的高偏差时模型如何调整;如果发现模型属于高方差,则可以增加训练样本集。 二、随机梯 阅读全文
posted @ 2017-03-06 12:45 光彩照人 阅读(344) 评论(0) 推荐(0) 编辑
摘要: 一、基于内容的推荐系统(Content Based Recommendations) 所谓基于内容的推荐,就是知道待推荐产品的一些特征情况,将产品的这些特征作为特征变量构建模型来预测。比如,下面的电影推荐,就是电影分为"爱情电影"、“动作电影”一些特征来进行预测。 上述例子,将电影的内容特征作为特征 阅读全文
posted @ 2017-03-02 22:15 光彩照人 阅读(442) 评论(0) 推荐(0) 编辑
摘要: 一、如何构建Anomaly Detection模型? 二、如何评估Anomaly Detection系统? 1)将样本分为6:2:2比例 2)利用交叉验证集计算出F1值,可以用F1值选取概率阈值ξ,选取使得F1值最大的那个ξ。 3)同时也可以根据训练集、交叉验证集、测试集来同样选取使用哪些特征变量更 阅读全文
posted @ 2017-03-01 13:06 光彩照人 阅读(914) 评论(0) 推荐(0) 编辑