随笔分类 -  机器学习和数据挖掘

摘要:爬虫 Http请求,urllib2获取数据,第三方库requests获取数据,BeautifulSoup处理数据,使用Chrome浏览器开发者工具显示检查网页源代码,json模块的dumps,loads,dump,load方法介绍 伪装浏览器、IP限制、登陆、验证码(CAPTCHA) 1.爬虫 Ht 阅读全文
posted @ 2017-11-02 11:33 大树2 阅读(716) 评论(0) 推荐(0) 编辑
摘要:Python 基本语法,文件读写,数据结构和类型 1.基本语法 解释型(无需编译)、交互式、面向对象、跨平台、简单好用 中文编码:http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html 变量名:可以包括英文、数字以及下划线,但不能以数字 阅读全文
posted @ 2017-11-02 10:54 大树2 阅读(575) 评论(0) 推荐(0) 编辑
摘要:数据工程采集、存储、清洗、分析、可视化 编程语言C++和Javapython大法Rweb:php、html、css、javascript 结合采集:python存储:python+数据库/.csv/txt清洗:python分析:python+R/pandas/numpy可视化:R+web/matpl 阅读全文
posted @ 2017-11-02 10:26 大树2 阅读(253) 评论(0) 推荐(0) 编辑
摘要:看看下面这些项目,并试着用它们实现一些东西出来:• The Django Tutorial 试着用 Django Web Framework 创建一个 web 应用。• SciPy 如果你对科学,数学,还有工程感兴趣的话。如果你想结合 SciPy 或者别的代码写篇美观的论文,你还可以看看 Dexy。 阅读全文
posted @ 2017-10-31 17:09 大树2 阅读(280) 评论(0) 推荐(0) 编辑
摘要:demo: import xml.dom.minidom dom=xml.dom.minidom.parse('sample.xml')root = dom.documentElementcc=dom.getElementsByTagName('movie')c1=cc[0]print(root.n 阅读全文
posted @ 2017-10-24 17:40 大树2 阅读(206) 评论(0) 推荐(0) 编辑
摘要:demo: import jsonimport requestsimport xml.etree.ElementTree as et def xmlsjondemo(): data={'statuscode':'200','data':'100','age':'11'} s=json.dumps(d 阅读全文
posted @ 2017-10-24 16:20 大树2 阅读(216) 评论(0) 推荐(0) 编辑
摘要:1.tong ji letter demo mport sys def tongjiword(): fi =open(paht,'r') cont=fi.read() wl={} for line in fi.read(): lin =line.trip() for i in range(len(l 阅读全文
posted @ 2017-10-17 15:01 大树2 阅读(144) 评论(0) 推荐(0) 编辑
摘要:我们在写 CSS 时,标签名不加任何修饰,类名前加点,id名前加 #,在这里我们也可以利用类似的方法来筛选元素,用到的方法是 soup.select(),返回类型是 list(1)通过标签名查找 (2)通过类名查找 (3)通过 id 名查找 (4)组合查找 组合查找即和写 class 文件时,标签名 阅读全文
posted @ 2017-10-09 16:48 大树2 阅读(12139) 评论(0) 推荐(1) 编辑
摘要:先吐槽一下这个基于theano的keras有多难装,反正我是在windows下折腾到不行(需要64bit,vs c++2015),所以自己装了一个双系统。这才感到linux系统的强大之初,难怪大公司都是用这个做开发,妹的,谁用谁知道啊!!!! 先来介绍一下这个框架:我们都知道深度的神经网络,pyth 阅读全文
posted @ 2017-09-08 11:59 大树2 阅读(1191) 评论(0) 推荐(0) 编辑
摘要:1、安装anaconda anaconda想必大家都不陌生,由于网站登不上去,我找到了清华大学的一个开源镜像,下载地址为http://mirrors.tuna.tsinghua.edu.cn/help/anaconda/ 下载完成后安装,一步步点击ok就好啦,这里忘截图了,所以就不放图了,我将ana 阅读全文
posted @ 2017-09-07 17:51 大树2 阅读(796) 评论(0) 推荐(0) 编辑
摘要:CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络) CNN 专门解决图像问题的,可用把它看作特征提取层,放在输入层上,最后用MLP 做分类。 RNN 专门解决时间序列问题的,用来提取时间序列信息,放在特征提取层(如CNN)之后。 DNN 说白了就是 多层网络,只是用了很多技巧,让 阅读全文
posted @ 2017-09-07 15:14 大树2 阅读(2783) 评论(0) 推荐(0) 编辑
摘要:git initmd testcd testgit statusgit add test //git add test/a.txtgit status git remote add origin git@github.com:dennysjchen/web.git //git@github.com: 阅读全文
posted @ 2017-08-31 11:41 大树2 阅读(614) 评论(0) 推荐(0) 编辑
摘要:SVM 原理推导 机器学习就是找决策边界1.have u ? if w * u + b 〉= 0 them is + 正样本(W*u =U的图影,b原点到边界的值) if w * u >=c if w * u +b <0 them is - 样本 2.yi(w * x +b) -1 >=0 yi(w 阅读全文
posted @ 2017-08-27 23:03 大树2 阅读(120) 评论(0) 推荐(0) 编辑
摘要:一、病人分类的例子 让我从一个例子开始讲起,你会看到贝叶斯分类器很好懂,一点都不难。 某个医院早上收了六个门诊病人,如下表。 症状 职业 疾病 打喷嚏 护士 感冒 打喷嚏 农夫 过敏 头痛 建筑工人 脑震荡 头痛 建筑工人 感冒 打喷嚏 教师 感冒 头痛 教师 脑震荡 现在又来了第七个病人,是一个打 阅读全文
posted @ 2017-08-25 17:57 大树2 阅读(599) 评论(0) 推荐(0) 编辑
摘要:pandas常用函数整理,作为个人笔记。 仅标记函数大概用途做索引用,具体使用方式请参照pandas官方技术文档。 约定 from pandas import Series, DataFrame import pandas as pd import numpy as np 带.的为Series或者D 阅读全文
posted @ 2017-08-24 17:58 大树2 阅读(1649) 评论(0) 推荐(0) 编辑
摘要:#coding:utf-8import numpy as npimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus'] 阅读全文
posted @ 2017-08-24 17:45 大树2 阅读(1781) 评论(0) 推荐(0) 编辑
摘要:朴素贝叶斯: 是使用概率论来分类的算法。其中朴素:各特征条件独立;贝叶斯:根据贝叶斯定理。这里,只要分别估计出,特征 Χi 在每一类的条件概率就可以了。类别 y 的先验概率可以通过训练集算出 k-近邻算法: 简单地说,k-近邻算法采用测量不同特征值之间的距离方法进行分类。 决策树:最优划分属性,结点 阅读全文
posted @ 2017-08-23 22:10 大树2 阅读(710) 评论(0) 推荐(0) 编辑
摘要:python matplotlib 中文显示乱码设置 原因:是matplotlib库中没有中文字体。1 解决方案:1.进入C:\Anaconda64\Lib\site-packages\matplotlib\mpl-data该文件夹下就能看到matplotlibrc配置文件,打开该配置文件 找到下面 阅读全文
posted @ 2017-08-23 14:46 大树2 阅读(1575) 评论(0) 推荐(0) 编辑
摘要:再考虑一个场景,要读取文件内容,并把年龄和名字的顺序交换存成新文件age_name.txt,这时可以同时打开两个文件:with open('name_age.txt', 'r') as fread, open('age_name.txt', 'w') as fwrite: line = fread. 阅读全文
posted @ 2017-08-22 09:56 大树2 阅读(227) 评论(0) 推荐(0) 编辑
摘要:Python开源机器学习框架:Scikit-learn入门指南. Scikit-learn的六大功能 Scikit-learn的基本功能主要被分为六大部分:分类,回归,聚类,数据降维,模型选择和数据预处理。 分类是指识别给定对象的所属类别,属于监督学习的范畴,最常见的应用场景包括垃圾邮件检测和图像识 阅读全文
posted @ 2017-08-21 22:58 大树2 阅读(738) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示