08 2017 档案

摘要:git initmd testcd testgit statusgit add test //git add test/a.txtgit status git remote add origin git@github.com:dennysjchen/web.git //git@github.com: 阅读全文
posted @ 2017-08-31 11:41 大树2 阅读(613) 评论(0) 推荐(0) 编辑
摘要:SVM 原理推导 机器学习就是找决策边界1.have u ? if w * u + b 〉= 0 them is + 正样本(W*u =U的图影,b原点到边界的值) if w * u >=c if w * u +b <0 them is - 样本 2.yi(w * x +b) -1 >=0 yi(w 阅读全文
posted @ 2017-08-27 23:03 大树2 阅读(119) 评论(0) 推荐(0) 编辑
摘要:一、病人分类的例子 让我从一个例子开始讲起,你会看到贝叶斯分类器很好懂,一点都不难。 某个医院早上收了六个门诊病人,如下表。 症状 职业 疾病 打喷嚏 护士 感冒 打喷嚏 农夫 过敏 头痛 建筑工人 脑震荡 头痛 建筑工人 感冒 打喷嚏 教师 感冒 头痛 教师 脑震荡 现在又来了第七个病人,是一个打 阅读全文
posted @ 2017-08-25 17:57 大树2 阅读(598) 评论(0) 推荐(0) 编辑
摘要:pandas常用函数整理,作为个人笔记。 仅标记函数大概用途做索引用,具体使用方式请参照pandas官方技术文档。 约定 from pandas import Series, DataFrame import pandas as pd import numpy as np 带.的为Series或者D 阅读全文
posted @ 2017-08-24 17:58 大树2 阅读(1648) 评论(0) 推荐(0) 编辑
摘要:#coding:utf-8import numpy as npimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus'] 阅读全文
posted @ 2017-08-24 17:45 大树2 阅读(1780) 评论(0) 推荐(0) 编辑
摘要:朴素贝叶斯: 是使用概率论来分类的算法。其中朴素:各特征条件独立;贝叶斯:根据贝叶斯定理。这里,只要分别估计出,特征 Χi 在每一类的条件概率就可以了。类别 y 的先验概率可以通过训练集算出 k-近邻算法: 简单地说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。 决策树:最优划分属性,结点 阅读全文
posted @ 2017-08-23 22:10 大树2 阅读(706) 评论(0) 推荐(0) 编辑
摘要:python matplotlib 中文显示乱码设置 原因:是matplotlib库中没有中文字体。1 解决方案:1.进入C:\Anaconda64\Lib\site-packages\matplotlib\mpl-data该文件夹下就能看到matplotlibrc配置文件,打开该配置文件 找到下面 阅读全文
posted @ 2017-08-23 14:46 大树2 阅读(1574) 评论(0) 推荐(0) 编辑
摘要:再考虑一个场景,要读取文件内容,并把年龄和名字的顺序交换存成新文件age_name.txt,这时可以同时打开两个文件:with open('name_age.txt', 'r') as fread, open('age_name.txt', 'w') as fwrite: line = fread. 阅读全文
posted @ 2017-08-22 09:56 大树2 阅读(226) 评论(0) 推荐(0) 编辑
摘要:Python开源机器学习框架:Scikit-learn入门指南. Scikit-learn的六大功能 Scikit-learn的基本功能主要被分为六大部分:分类,回归,聚类,数据降维,模型选择和数据预处理。 分类是指识别给定对象的所属类别,属于监督学习的范畴,最常见的应用场景包括垃圾邮件检测和图像识 阅读全文
posted @ 2017-08-21 22:58 大树2 阅读(737) 评论(0) 推荐(0) 编辑
摘要:Python的可视化包 – Matplotlib Matplotlib是Python中最常用的可视化工具之一,可以非常方便地创建海量类型地2D图表和一些基本的3D图表。Matplotlib最早是为了可视化癫痫病人的脑皮层电图相关的信号而研发,因为在函数的设计上参考了MATLAB,所以叫做Matplo 阅读全文
posted @ 2017-08-21 15:20 大树2 阅读(519) 评论(0) 推荐(0) 编辑
摘要:0 NumPy数组 NumPy数组:NumPy数组是一个多维数组对象,称为ndarray。其由两部分组成: 实际的数据 描述这些数据的元数据 NumPy数组属性: ndim(纬数,x,y 2),shape(纬度,2*3),reshape(纬度),size:元素个数,dtype:元素数据类型,item 阅读全文
posted @ 2017-08-18 17:49 大树2 阅读(686) 评论(0) 推荐(0) 编辑
摘要:pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包 pandas 也是围绕着 Series 和 DataFrame 两个核心数据结构展开的, 导入如下: from pandas import Series,DataFrame import pandas as pd impo 阅读全文
posted @ 2017-08-16 17:14 大树2 阅读(1978) 评论(0) 推荐(0) 编辑
摘要:Linux命令:scp命令(文件上传和下载) #本地下载远端文件 并且重命名(从本地机器下载远端)scp webmaster@10.10.65.103:/ROOT/logs/tomcate.log /home/dajie/mywork/newname.log #本地下载远端文件(从本地机器下载远端) 阅读全文
posted @ 2017-08-16 09:54 大树2 阅读(245) 评论(0) 推荐(0) 编辑
摘要:此方法不返回任何值,但从列表中反转给定对象。string,tuple no reverse()def variablenumbers(): lis=[x for x in range(101)] lis.reverse() lis2=lis[0:-1:8] print(lis2) listDemo 阅读全文
posted @ 2017-08-15 15:38 大树2 阅读(4425) 评论(0) 推荐(0) 编辑
摘要:在自己的电脑上安装Anaconda,用conda create创建一个python 2.7版本的environment。今后我们的程序都在这个环境下执行 0.download anaconda and install 1.open anaconda prompt conda create -n py 阅读全文
posted @ 2017-08-15 15:12 大树2 阅读(196) 评论(0) 推荐(0) 编辑
摘要:# loads() str to json data# jumps() json to str# jump() json to filedef ladstest(): data = '{"name": "July", "salary": 999999, "title": "CEO", "manage 阅读全文
posted @ 2017-08-15 14:15 大树2 阅读(1234) 评论(0) 推荐(0) 编辑
摘要:import csvdef readfile0(): print('test read file') in_file = open('C:\python\demo\LiaoXueFeng\data\lianjian_zufang_version_4.csv','r',encoding='UTF-8' 阅读全文
posted @ 2017-08-15 11:32 大树2 阅读(636) 评论(0) 推荐(0) 编辑
摘要:第一部分:Hive简介 什么是Hive •Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 •本质是将SQL转换为MapReduce程序 第二部分:为什么使用Hive 面临的问题 人员学习成本太高 项目周期要求太短 我只是需要一个简单的 阅读全文
posted @ 2017-08-11 17:00 大树2 阅读(282) 评论(0) 推荐(0) 编辑
摘要:Spark体系架构 zhuangzai Spark体系架构包括如下三个主要组件: 数据存储 API 管理框架 接下来让我们详细了解一下这些组件。 数据存储: Spark用HDFS文件系统存储数据。它可用于存储任何兼容于Hadoop的数据源,包括HDFS,HBase,Cassandra等。 API: 阅读全文
posted @ 2017-08-09 18:02 大树2 阅读(142) 评论(0) 推荐(0) 编辑
摘要:1.Hadoop是一个大家族,是一个开源的生态系统,是一个分布式运行系统,是基于Java编程语言的架构。不过它最高明的技术还是HDFS和MapReduce,使得它可以分布式处理海量数据。 2.HDFS(分布式文件系统):它与现存的文件系统不同的特性有很多,比如高度容错(即使中途出错,也能继续运行), 阅读全文
posted @ 2017-08-09 17:28 大树2 阅读(153) 评论(0) 推荐(0) 编辑
摘要:Hadoop,mapreduce 介绍 59888745@qq.com 大数据工程师是在Linux系统下搭建Hadoop生态系统(cloudera是最大的输出者类似于Linux的红帽), 把用户的交易或行为信息通过HDFS(分布式文件系统)等存储用户数据文件,然后通过Hbase(类似于NoSQL)等 阅读全文
posted @ 2017-08-09 10:17 大树2 阅读(344) 评论(0) 推荐(0) 编辑
摘要:import numpy as np import matplotlib.pyplot as plt from pylab import * numpy 常用来组织源数据: 使用 plot 函数直接绘制上述函数曲线, 可以通过配置 plot 函数参数调整曲线的样式、粗细、颜色、标记等: 曲线图:ma 阅读全文
posted @ 2017-08-03 17:41 大树2 阅读(309) 评论(0) 推荐(0) 编辑
摘要:python seaborn 画图 59888745@qq.com 2017.08.02 distplot( ) kdeplot( ) distplot( )为hist加强版, kdeplot( )为密度曲线图 箱型图 boxplot( ) 联合分布jointplot( ) 热点图heatmap( 阅读全文
posted @ 2017-08-02 22:57 大树2 阅读(756) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示