费弗里

2018年5月11日

摘要：一、简介 TensorFlow时谷歌于2015年11月宣布在Github上开源的第二代分布式机器学习系统，目前仍处于快速开发迭代中，有大量的新功能新特性在陆续研发中； TensorFlow既是一个实现机器学习算法的接口，同时也是执行机器学习算法的框架。它的前端支持Python、C++、Go、Java 阅读全文

posted @ 2018-05-11 19:35 费弗里阅读(536) 评论(3) 推荐(1)

2018年5月7日

（数据科学学习手札34）多层感知机原理详解&Python与R实现

摘要：一、简介机器学习分为很多个领域，其中的连接主义指的就是以神经元（neuron）为基本结构的各式各样的神经网络，规范的定义是：由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界的刺激作出的交互反应。而我们在机器学习中广泛提及的神经网络学习就是机器学习与神经网络的交阅读全文

posted @ 2018-05-07 20:09 费弗里阅读(7391) 评论(0) 推荐(0)

2018年5月5日

（数据科学学习手札33）基于Python的网络数据采集实战（1）

摘要：一、简介前面两篇文章我们围绕利用Python进行网络数据采集铺垫了很多内容，但光说不练是不行的，于是乎，本篇就将基于笔者最近的一项数据需求进行一次网络数据采集的实战；二、网易财经股票数据爬虫实战 2.1 数据要求在本部分中，我们需要采集的是海南板块中所有股票在2012年6月29日的所有指标数据阅读全文

posted @ 2018-05-05 16:36 费弗里阅读(1062) 评论(0) 推荐(0)

（数据科学学习手札32）Python中re模块的详细介绍

摘要：一、简介关于正则表达式，我在前一篇（数据科学学习手札31）中已经做了详细介绍，本篇将对Python中自带模块re的常用功能进行总结； re作为Python中专为正则表达式相关功能做出支持的模块，提供了一系列方法来完成几乎全部类型的文本信息的处理工作，下面一一介绍：二、re.compile() 在阅读全文

posted @ 2018-05-05 13:30 费弗里阅读(835) 评论(0) 推荐(0)

2018年5月4日

（数据科学学习手札31）基于Python的网络数据采集（初级篇）

摘要：一、简介在实际的业务中，我们手头的数据往往难以满足需求，这时我们就需要利用互联网上的资源来获取更多的补充数据，但是很多情况下，有价值的数据往往是没有提供源文件的直接下载渠道的（即所谓的API），这时我们该如何批量获取这些嵌入网页中的信息呢？这时网络数据采集就派上用处了，你通过浏览器可以观看到的绝阅读全文

posted @ 2018-05-04 22:46 费弗里阅读(3932) 评论(0) 推荐(0)

2018年5月3日

（数据科学学习手札30）朴素贝叶斯分类器的原理详解&Python与R实现

摘要：一、简介要介绍朴素贝叶斯（naive bayes）分类器，就不得不先介绍贝叶斯决策论的相关理论：贝叶斯决策论（bayesian decision theory）是概率框架下实施决策的基本方法。对分类任务来说，在所有相关概率都已知的理想情况下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的阅读全文

posted @ 2018-05-03 10:57 费弗里阅读(5050) 评论(0) 推荐(0)

2018年4月25日

（数据科学学习手札29）KNN分类的原理详解&Python与R实现

摘要：一、简介 KNN（k-nearst neighbors，KNN）作为机器学习算法中的一种非常基本的算法，也正是因为其原理简单，被广泛应用于电影/音乐推荐等方面，即有些时候我们很难去建立确切的模型来描述几种类别的具体表征特点，就可以利用天然的临近关系来进行分类；二、原理 KNN算法主要用于分类任务中阅读全文

posted @ 2018-04-25 22:11 费弗里阅读(2340) 评论(0) 推荐(0)

2018年4月20日

（数据科学学习手册28）SQL server 2012中的查询语句汇总

摘要：一、简介数据库管理系统（DBMS）最重要的功能就是提供数据查询，即用户根据实际需求对数据进行筛选，并以特定形式进行显示。在Microsoft SQL Serve 2012 中，可以使用通用的SELECT语句进行查询操作，该语句具有非常灵活的使用方式和丰富的功能，即可以完成简单的单表查询，也可以完成阅读全文

posted @ 2018-04-20 09:58 费弗里阅读(3237) 评论(0) 推荐(1)

2018年4月14日

（数据科学学习手札27）sklearn数据集分割方法汇总

摘要：一、简介在现实的机器学习任务中，我们往往是利用搜集到的尽可能多的样本集来输入算法进行训练，以尽可能高的精度为目标，但这里便出现一个问题，一是很多情况下我们不能说搜集到的样本集就能代表真实的全体，其分布也不一定就与真实的全体相同，但是有一点很明确，样本集数量越大则其接近真实全体的可能性也就越大；二是阅读全文

posted @ 2018-04-14 19:44 费弗里阅读(19416) 评论(0) 推荐(7)

2018年4月13日

（数据科学学习手札26）随机森林分类器原理详解&Python与R实现

摘要：一、简介作为集成学习中非常著名的方法，随机森林被誉为“代表集成学习技术水平的方法”，由于其简单、容易实现、计算开销小，使得它在现实任务中得到广泛使用，因为其来源于决策树和bagging，决策树我在前面的一篇博客中已经详细介绍，下面就来简单介绍一下集成学习与Bagging；二、集成学习集成学习（阅读全文

posted @ 2018-04-13 20:04 费弗里阅读(12283) 评论(0) 推荐(3)

数据科学玩家

公告