10 2017 档案

Excel导入CSV文件中文乱码
摘要:参考: iconv -f UTF8 -t GB18030 a.csv >b.csv 或iconv -f UTF-8 -t GB18030 a.csv >b.csv 阅读全文

posted @ 2017-10-31 13:32 TMatrix52 阅读(169) 评论(0) 推荐(0) 编辑

解决Python2.7的UnicodeEncodeError: ‘ascii’ codec can’t encode异常错误
摘要:更改 sys.defaultencoding 为文件的编码方式 #! /usr/bin/env python # -*- coding: utf-8 -*- import sys reload(sys) # Python2.5 初始化后删除了 sys.setdefaultencoding 方法,我们 阅读全文

posted @ 2017-10-31 10:40 TMatrix52 阅读(123) 评论(0) 推荐(0) 编辑

python 深拷贝与浅拷贝
摘要:浅拷贝:直接赋值,传递对象的引用而已 深拷贝:包含对象里面的自对象的拷贝,所以原始对象的改变不会造成深拷贝里任何子元素的改变 不多说,之间看结果。 阅读全文

posted @ 2017-10-30 19:51 TMatrix52 阅读(125) 评论(0) 推荐(0) 编辑

最大似然估计与最小二乘
摘要:参考: 最大似然估计,就是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。例如:一个麻袋里有白球与黑球,但是我不知道它们之间的比例,那我就有放回的抽取10次,结果我发现我抽到了8次黑球2次白球,我要求最有可能的黑白球之间的比例时,就采取最大似然估计法。 MLE可以看作一种特殊情况下 阅读全文

posted @ 2017-10-30 10:35 TMatrix52 阅读(149) 评论(0) 推荐(0) 编辑

Factor Graph因子图
摘要:参考链接1: 参考链接2: 参考ppt3: Factor Graph 是概率图的一种,概率图有很多种,最常见的就是Bayesian Network (贝叶斯网络)和Markov Random Fields(马尔可夫随机场)。在概率图中,求某个变量的边缘分布是常见的问题。这问题有很多求解方法,其中之一 阅读全文

posted @ 2017-10-29 14:21 TMatrix52 阅读(1281) 评论(0) 推荐(0) 编辑

Mac os fatal error: 'numpy/arrayobject.h' file not found
摘要:添加NumPy headers 给 CFLAGS: export CFLAGS="-I /usr/local/lib/python2.7/site-packages/numpy/core/include $CFLAGS"再次执行,done! 阅读全文

posted @ 2017-10-27 15:02 TMatrix52 阅读(1148) 评论(0) 推荐(0) 编辑

贝叶斯网络简介--翻译版
摘要:原文链接 1. What is a Bayes net? 贝叶斯网是一个模型。 它反映了正在建模的世界的某些部分的状态,它描述了这些国家如何与概率相关联。 该模型可能是您的房子,或您的汽车,您的身体,您的社区,生态系统,股票市场等。绝对任何东西都可以由贝叶斯网络建模。 模型的所有可能状态都表示可能存 阅读全文

posted @ 2017-10-27 10:33 TMatrix52 阅读(358) 评论(0) 推荐(0) 编辑

Cython 使用
摘要:链接: Cython是一个快速生成Python扩展模块的工具,从语法层面上来讲是Python语法和C语言语法的混血,当Python性能遇到瓶颈时,Cython直接将C的原生速度植入Python程序,这样使Python程序无需使用C重写,能快速整合原有的Python程序,这样使得开发效率和执行效率都有 阅读全文

posted @ 2017-10-26 19:31 TMatrix52 阅读(121) 评论(0) 推荐(0) 编辑

房价预测《进阶版,测试》
摘要:#coding=utf8 import numpy as np import pandas as pd from sklearn.linear_model import Ridge from sklearn.model_selection import cross_val_score import matplotlib.pyplot as plt from sklearn.ensemble i... 阅读全文

posted @ 2017-10-23 20:46 TMatrix52 阅读(217) 评论(0) 推荐(0) 编辑

房价预测《基础版,测试》
摘要:#coding=utf8 import numpy as np import pandas as pd from sklearn.linear_model import Ridge from sklearn.model_selection import cross_val_score import matplotlib.pyplot as plt from sklearn.ensemble i... 阅读全文

posted @ 2017-10-23 17:26 TMatrix52 阅读(205) 评论(0) 推荐(0) 编辑

pandas.read_csv 参数 index_col=0
摘要:index_col : int or sequence or False, default None 用作行索引的列编号或者列名,如果给定一个序列则有多个行索引。 如果文件不规则,行尾有分隔符,则可以设定index_col=False 来使得pandas不使用第一列作为行索引。 如: train_d 阅读全文

posted @ 2017-10-23 17:02 TMatrix52 阅读(3060) 评论(0) 推荐(0) 编辑

LDA模型应用实践-希拉里邮件主题分类
摘要:#coding=utf8 import numpy as np import pandas as pd import re from gensim import corpora, models, similarities import gensim from nltk.corpus import stopwords df = pd.read_csv("./input/HillaryEmails... 阅读全文

posted @ 2017-10-18 20:18 TMatrix52 阅读(384) 评论(0) 推荐(0) 编辑

xgboost 简单测试
摘要:#coding=utf8 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.feature_extraction import DictVectorizer from xgboost import XGBClassifier titanic = pd.read_csv('.... 阅读全文

posted @ 2017-10-18 14:33 TMatrix52 阅读(438) 评论(0) 推荐(0) 编辑

os.path.join 用法
摘要:level1_list = [os.path.join(base_path, f) for f in listdir(base_path) if os.path.isdir(os.path.join(base_path, f))] 结合路径: 原来的目录层级:c:/a/b/c/test.py pri 阅读全文

posted @ 2017-10-17 19:53 TMatrix52 阅读(7271) 评论(0) 推荐(1) 编辑

word2vec 小测试
摘要:Bag-of-words Model Previous state-of-the-art document representations were based on the bag-of-words model, which represent input documents as a fixed 阅读全文

posted @ 2017-10-17 18:43 TMatrix52 阅读(246) 评论(0) 推荐(0) 编辑

jieba分词
摘要:链接:http://blog.csdn.net/Cincinnati_De/article/details/77859805 阅读全文

posted @ 2017-10-17 15:14 TMatrix52 阅读(94) 评论(0) 推荐(0) 编辑

关键词搜索
摘要:购物者依靠家得宝的产品权限来查找和购买最新的产品,并及时解决家庭装修需求。从安装新的吊扇到改造整个厨房,只要点击鼠标或点击屏幕,客户就可以快速地找到正确的结果。速度,准确性和交付无摩擦客户体验至关重要 在本次大赛中,Home Depot正在要求Kagglers通过开发可以准确预测搜索结果相关性的模型 阅读全文

posted @ 2017-10-16 21:33 TMatrix52 阅读(320) 评论(0) 推荐(0) 编辑

chapter02 PCA主成分分析在手写数字识别分类的应用
摘要:结果: 分析:虽然损失了%3的预测准确性,但是相比于原来的64维特征,使用PCA压缩并降低了68.75%的维度,能改节省大量的训练时间,在保持数据多样性的基础上,规避掉了大量特征冗余和噪声。 阅读全文

posted @ 2017-10-12 13:02 TMatrix52 阅读(477) 评论(0) 推荐(0) 编辑

chapter02 回归模型在''美国波士顿房价预测''问题中实践
摘要:类似: 阅读全文

posted @ 2017-10-12 11:10 TMatrix52 阅读(392) 评论(0) 推荐(1) 编辑

chapter02 三种决策树模型:单一决策树、随机森林、GBDT(梯度提升决策树) 预测泰坦尼克号乘客生还情况
摘要:单一决策树结果: 随机森林,GDBT结果: 预测性能: GDBT最佳,随机森林次之 一般,工业界为了追求更加强劲的预测性能,使用随机森林作为基线系统(Baseline System)。 阅读全文

posted @ 2017-10-11 21:23 TMatrix52 阅读(542) 评论(0) 推荐(0) 编辑

chapter02 K近邻分类器对Iris数据进行分类预测
摘要:寻找与待分类的样本在特征空间中距离最近的K个已知样本作为参考,来帮助进行分类决策。 与其他模型最大的不同在于:该模型没有参数训练过程。无参模型,高计算复杂度和内存消耗。 结果: 阅读全文

posted @ 2017-10-11 20:30 TMatrix52 阅读(257) 评论(0) 推荐(0) 编辑

chapter02 朴素贝叶斯分类器对新闻文本数据进行类型预测
摘要:结果: 阅读全文

posted @ 2017-10-11 20:14 TMatrix52 阅读(332) 评论(0) 推荐(0) 编辑

chapter02 svm对手写体数字的数码图像进行识别
摘要:结果: 阅读全文

posted @ 2017-10-11 19:59 TMatrix52 阅读(274) 评论(0) 推荐(0) 编辑

chapter02“良/恶性乳腺癌肿瘤预测”的问题
摘要:最近比较闲,是时候把自己以前看的资料整理一下了。 阅读全文

posted @ 2017-10-11 19:33 TMatrix52 阅读(191) 评论(0) 推荐(0) 编辑

UnicodeDammit
摘要:UnicodeDammit 是BS内置库, 主要用来猜测文档编码. 编码自动检测 功能可以在Beautiful Soup以外使用,检测某段未知编码时,可以使用这个方法: from bs4 import UnicodeDammit dammit = UnicodeDammit("Sacr\xc3\xa 阅读全文

posted @ 2017-10-10 11:21 TMatrix52 阅读(799) 评论(0) 推荐(0) 编辑

ASCII编码和Unicode编码的区别
摘要:链接: 计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。Unicode把所有语言都统一到一套编码里,这样就不会再有乱码问题了。Unicode标准也在不断发展,但最常用的是用两个字节表示一个字符(如果要用到非常偏僻的字符,就需要4个字节)。现代操作系统和大多数编程语言都直接支持U 阅读全文

posted @ 2017-10-10 10:56 TMatrix52 阅读(558) 评论(0) 推荐(0) 编辑

TensorBoard 实践 1
摘要:tf.scalar_summary('loss',self.loss) AttributeError: 'module' object has no attribute 'scalar_summary' 解决: tf.scalar_summary('images', images)改为:tf.sum 阅读全文

posted @ 2017-10-09 18:45 TMatrix52 阅读(228) 评论(0) 推荐(0) 编辑

Tensorflow 解决MNIST问题的重构程序
摘要:分为三个文件:mnist_inference.py:定义前向传播的过程以及神经网络中的参数,抽象成为一个独立的库函数;mnist_train.py:定义神经网络的训练过程,在此过程中,每个一段时间保存一次模型训练的中间结果;mnist_eval.py:定义测试过程。 #coding=utf8impo 阅读全文

posted @ 2017-10-07 18:13 TMatrix52 阅读(307) 评论(0) 推荐(0) 编辑

在MNIST数据集,实现多个功能的tensorflow程序
摘要:结果: 阅读全文

posted @ 2017-10-07 14:11 TMatrix52 阅读(163) 评论(0) 推荐(0) 编辑

Tensorflow中的滑动平均模型
摘要:原文链接在Tensorflow的教程里面,使用梯度下降算法训练神经网络时,都会提到一个使模型更加健壮的策略,即滑动平均模型。 基本思想 在使用梯度下降算法训练模型时,每次更新权重时,为每个权重维护一个影子变量,该影子变量随着训练的进行,会最终稳定在一个接近真实权重的值的附近。那么,在进行预测的时候,使用影子变量的值替代真实变量的值,可以得到更好的结果。 操作步骤 1 训练阶段:为每个可训练的... 阅读全文

posted @ 2017-10-07 12:53 TMatrix52 阅读(149) 评论(0) 推荐(0) 编辑

导航

点击右上角即可分享
微信分享提示