大树2 - 博客园

2017年11月2日

摘要：数据工程采集、存储、清洗、分析、可视化编程语言C++和Javapython大法Rweb：php、html、css、javascript 结合采集：python存储：python＋数据库/.csv/txt清洗：python分析：python＋R/pandas/numpy可视化：R＋web/matpl 阅读全文

posted @ 2017-11-02 10:26 大树2 阅读(250) 评论(0) 推荐(0) 编辑

2017年10月31日

jieba user guide

摘要： import sysimport jiebaimport jieba.analyseimport jieba.posseg as posg sentence=u'''深圳新闻网讯 10月30日，世界城市日——全球城市竞争力论坛在广州举行。会上，中国社科院财经战略研究院和联合国人类住区规划署发布了《全阅读全文

posted @ 2017-10-31 23:44 大树2 阅读(155) 评论(0) 推荐(0) 编辑

python各类项目模块记录

摘要：看看下面这些项目，并试着用它们实现一些东西出来：• The Django Tutorial 试着用 Django Web Framework 创建一个 web 应用。• SciPy 如果你对科学，数学，还有工程感兴趣的话。如果你想结合 SciPy 或者别的代码写篇美观的论文，你还可以看看 Dexy。阅读全文

posted @ 2017-10-31 17:09 大树2 阅读(277) 评论(0) 推荐(0) 编辑

2017年10月24日

python parse xml using DOM

摘要： demo： import xml.dom.minidom dom=xml.dom.minidom.parse('sample.xml')root = dom.documentElementcc=dom.getElementsByTagName('movie')c1=cc[0]print(root.n 阅读全文

posted @ 2017-10-24 17:40 大树2 阅读(203) 评论(0) 推荐(0) 编辑

python dict conver json

摘要： demo: import jsonimport requestsimport xml.etree.ElementTree as et def xmlsjondemo(): data={'statuscode':'200','data':'100','age':'11'} s=json.dumps(d 阅读全文

posted @ 2017-10-24 16:20 大树2 阅读(211) 评论(0) 推荐(0) 编辑

2017年10月17日

tongjiword,write / read file demo

摘要： 1.tong ji letter demo mport sys def tongjiword(): fi =open(paht,'r') cont=fi.read() wl={} for line in fi.read(): lin =line.trip() for i in range(len(l 阅读全文

posted @ 2017-10-17 15:01 大树2 阅读(141) 评论(0) 推荐(0) 编辑

2017年10月9日

BeautifulSoup 使用select方法详解（通过标签名，类名， id，组合，属性查找）

摘要：我们在写 CSS 时，标签名不加任何修饰，类名前加点，id名前加 #，在这里我们也可以利用类似的方法来筛选元素，用到的方法是 soup.select()，返回类型是 list（1）通过标签名查找（2）通过类名查找（3）通过 id 名查找（4）组合查找组合查找即和写 class 文件时，标签名阅读全文

posted @ 2017-10-09 16:48 大树2 阅读(12053) 评论(0) 推荐(1) 编辑

2017年9月8日

python keras 神经网络框架的使用以及实例

摘要：先吐槽一下这个基于theano的keras有多难装，反正我是在windows下折腾到不行(需要64bit,vs c++2015)，所以自己装了一个双系统。这才感到linux系统的强大之初，难怪大公司都是用这个做开发，妹的，谁用谁知道啊！！！！先来介绍一下这个框架：我们都知道深度的神经网络，pyth 阅读全文

posted @ 2017-09-08 11:59 大树2 阅读(1185) 评论(0) 推荐(0) 编辑

2017年9月7日

windows7安装tensorflow-gpu开发环境

摘要： 1、安装anaconda anaconda想必大家都不陌生，由于网站登不上去，我找到了清华大学的一个开源镜像，下载地址为http://mirrors.tuna.tsinghua.edu.cn/help/anaconda/ 下载完成后安装，一步步点击ok就好啦，这里忘截图了，所以就不放图了，我将ana 阅读全文

posted @ 2017-09-07 17:51 大树2 阅读(793) 评论(0) 推荐(0) 编辑

神经网络之 DNN(深度神经网络) 介绍

摘要： CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络) CNN 专门解决图像问题的，可用把它看作特征提取层，放在输入层上，最后用MLP 做分类。 RNN 专门解决时间序列问题的，用来提取时间序列信息，放在特征提取层（如CNN）之后。 DNN 说白了就是多层网络，只是用了很多技巧，让阅读全文

posted @ 2017-09-07 15:14 大树2 阅读(2741) 评论(0) 推荐(0) 编辑

2017年8月31日

Git CMD连接,管理(remote,add,commit,push)github repository

摘要： git initmd testcd testgit statusgit add test //git add test/a.txtgit status git remote add origin git@github.com:dennysjchen/web.git //git@github.com: 阅读全文

posted @ 2017-08-31 11:41 大树2 阅读(596) 评论(0) 推荐(0) 编辑

2017年8月27日

SVM

摘要： SVM 原理推导机器学习就是找决策边界1.have u ? if w * u + b 〉= 0 them is + 正样本（W*u =U的图影，b原点到边界的值） if w * u >=c if w * u +b <0 them is - 样本 2.yi(w * x +b) -1 >=0 yi(w 阅读全文

posted @ 2017-08-27 23:03 大树2 阅读(117) 评论(0) 推荐(0) 编辑

2017年8月25日

朴素贝叶斯分类器的应用 Naive Bayes classifier

摘要：一、病人分类的例子让我从一个例子开始讲起，你会看到贝叶斯分类器很好懂，一点都不难。某个医院早上收了六个门诊病人，如下表。症状职业疾病打喷嚏　护士感冒打喷嚏　农夫过敏头痛建筑工人　脑震荡头痛建筑工人　感冒打喷嚏　教师感冒头痛教师脑震荡现在又来了第七个病人，是一个打阅读全文

posted @ 2017-08-25 17:57 大树2 阅读(570) 评论(0) 推荐(0) 编辑

2017年8月24日

pandas 常用函数整理

摘要： pandas常用函数整理，作为个人笔记。仅标记函数大概用途做索引用，具体使用方式请参照pandas官方技术文档。约定 from pandas import Series, DataFrame import pandas as pd import numpy as np 带.的为Series或者D 阅读全文

posted @ 2017-08-24 17:58 大树2 阅读(1642) 评论(0) 推荐(0) 编辑

Pandas.plot 做图 demo(scatter,bar,pie)

摘要： #coding:utf-8import numpy as npimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus'] 阅读全文

posted @ 2017-08-24 17:45 大树2 阅读(1774) 评论(0) 推荐(0) 编辑

2017年8月23日

机器学习集成算法--- 朴素贝叶斯,k-近邻算法,决策树,支持向量机(SVM),Logistic回归

摘要：朴素贝叶斯: 是使用概率论来分类的算法。其中朴素：各特征条件独立；贝叶斯：根据贝叶斯定理。这里，只要分别估计出，特征 Χi 在每一类的条件概率就可以了。类别 y 的先验概率可以通过训练集算出 k-近邻算法: 简单地说，k-近邻算法采用测量不同特征值之间的距离方法进行分类。决策树:最优划分属性,结点阅读全文

posted @ 2017-08-23 22:10 大树2 阅读(691) 评论(0) 推荐(0) 编辑

python matplotlib 中文显示乱码设置

摘要： python matplotlib 中文显示乱码设置原因:是matplotlib库中没有中文字体。1 解决方案:1.进入C:\Anaconda64\Lib\site-packages\matplotlib\mpl-data该文件夹下就能看到matplotlibrc配置文件,打开该配置文件找到下面阅读全文

posted @ 2017-08-23 14:46 大树2 阅读(1569) 评论(0) 推荐(0) 编辑

2017年8月22日

with open

摘要：再考虑一个场景，要读取文件内容，并把年龄和名字的顺序交换存成新文件age_name.txt，这时可以同时打开两个文件：with open('name_age.txt', 'r') as fread, open('age_name.txt', 'w') as fwrite: line = fread. 阅读全文

posted @ 2017-08-22 09:56 大树2 阅读(223) 评论(0) 推荐(0) 编辑

2017年8月21日

Python开源机器学习框架：Scikit-learn六大功能，安装和运行Scikit-learn

摘要： Python开源机器学习框架：Scikit-learn入门指南. Scikit-learn的六大功能 Scikit-learn的基本功能主要被分为六大部分：分类，回归，聚类，数据降维，模型选择和数据预处理。分类是指识别给定对象的所属类别，属于监督学习的范畴，最常见的应用场景包括垃圾邮件检测和图像识阅读全文

posted @ 2017-08-21 22:58 大树2 阅读(723) 评论(0) 推荐(0) 编辑

Python的可视化包 – Matplotlib 2D图表(点图和线图,.柱状或饼状类型的图),3D图表(曲面图，散点图和柱状图)

摘要： Python的可视化包 – Matplotlib Matplotlib是Python中最常用的可视化工具之一，可以非常方便地创建海量类型地2D图表和一些基本的3D图表。Matplotlib最早是为了可视化癫痫病人的脑皮层电图相关的信号而研发，因为在函数的设计上参考了MATLAB，所以叫做Matplo 阅读全文

posted @ 2017-08-21 15:20 大树2 阅读(510) 评论(0) 推荐(0) 编辑

2017年8月18日

python -- numpy 基本数据类型,算术运算,组合,分割函数

摘要： 0 NumPy数组 NumPy数组:NumPy数组是一个多维数组对象，称为ndarray。其由两部分组成：实际的数据描述这些数据的元数据 NumPy数组属性: ndim(纬数,x,y 2),shape(纬度，2*3),reshape(纬度),size:元素个数，dtype:元素数据类型，item 阅读全文

posted @ 2017-08-18 17:49 大树2 阅读(681) 评论(0) 推荐(0) 编辑

2017年8月16日

python pandas ---Series,DataFrame 创建方法,操作运算操作(赋值,sort,get,del,pop,insert,+,-,*,/)

摘要： pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包 pandas 也是围绕着 Series 和 DataFrame 两个核心数据结构展开的，导入如下： from pandas import Series,DataFrame import pandas as pd impo 阅读全文

posted @ 2017-08-16 17:14 大树2 阅读(1960) 评论(0) 推荐(0) 编辑

Linux命令：scp命令(文件上传和下载)

摘要： Linux命令：scp命令(文件上传和下载) #本地下载远端文件并且重命名（从本地机器下载远端）scp webmaster@10.10.65.103:/ROOT/logs/tomcate.log /home/dajie/mywork/newname.log #本地下载远端文件（从本地机器下载远端）阅读全文

posted @ 2017-08-16 09:54 大树2 阅读(240) 评论(0) 推荐(0) 编辑

2017年8月15日

python 6种数据类型几及用法

摘要：此方法不返回任何值，但从列表中反转给定对象。string,tuple no reverse()def variablenumbers(): lis=[x for x in range(101)] lis.reverse() lis2=lis[0:-1:8] print(lis2) listDemo 阅读全文

posted @ 2017-08-15 15:38 大树2 阅读(4421) 评论(0) 推荐(0) 编辑

python Anaconda 安装管理包,开发环境

摘要：在自己的电脑上安装Anaconda，用conda create创建一个python 2.7版本的environment。今后我们的程序都在这个环境下执行 0.download anaconda and install 1.open anaconda prompt conda create -n py 阅读全文

posted @ 2017-08-15 15:12 大树2 阅读(193) 评论(0) 推荐(0) 编辑

python json (loads(),load(),jump(),jumps())

摘要： # loads() str to json data# jumps() json to str# jump() json to filedef ladstest(): data = '{"name": "July", "salary": 999999, "title": "CEO", "manage 阅读全文

posted @ 2017-08-15 14:15 大树2 阅读(1225) 评论(0) 推荐(0) 编辑

python read file(f,csv)

摘要： import csvdef readfile0(): print('test read file') in_file = open('C:\python\demo\LiaoXueFeng\data\lianjian_zufang_version_4.csv','r',encoding='UTF-8' 阅读全文

posted @ 2017-08-15 11:32 大树2 阅读(632) 评论(0) 推荐(0) 编辑

2017年8月11日

大数据 Hive 简介

摘要：第一部分：Hive简介什么是Hive •Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。 •本质是将SQL转换为MapReduce程序第二部分：为什么使用Hive 面临的问题人员学习成本太高项目周期要求太短我只是需要一个简单的阅读全文

posted @ 2017-08-11 17:00 大树2 阅读(277) 评论(0) 推荐(0) 编辑

2017年8月9日

大数据 -- Spark

摘要： Spark体系架构 zhuangzai Spark体系架构包括如下三个主要组件：数据存储 API 管理框架接下来让我们详细了解一下这些组件。数据存储： Spark用HDFS文件系统存储数据。它可用于存储任何兼容于Hadoop的数据源，包括HDFS，HBase，Cassandra等。 API：阅读全文

posted @ 2017-08-09 18:02 大树2 阅读(141) 评论(0) 推荐(0) 编辑

hadoop 大数据介绍

摘要： 1.Hadoop是一个大家族，是一个开源的生态系统，是一个分布式运行系统，是基于Java编程语言的架构。不过它最高明的技术还是HDFS和MapReduce，使得它可以分布式处理海量数据。 2.HDFS（分布式文件系统）：它与现存的文件系统不同的特性有很多，比如高度容错（即使中途出错，也能继续运行），阅读全文

posted @ 2017-08-09 17:28 大树2 阅读(150) 评论(0) 推荐(0) 编辑

大树的Blog 程序员猴哥微信 chendashu618

记录学习过程，总结工作经验，探究底层运行逻辑。

公告

大树的Blog 程序员猴哥 微信 chendashu618

记录学习过程，总结工作经验，探究底层运行逻辑。

公告

大树的Blog 程序员猴哥微信 chendashu618