随笔分类 - 机器学习和数据挖掘

机器学习，深度学习相关介绍

摘要：最近看了周志华老师的书，主要内容如下,涉及到很多机器学习的知识点: by [2017.12.29 更新 denny shenzhen 59888745@qq.com] 1.线性模型： 3．在样本空间找一个超平面，将不同类别的样本分开； 2.决策树:CSL,ID3,C4.5算法 ID3中根据属性值分割阅读全文

posted @ 2017-12-29 15:36 大树2 阅读(406) 评论(0) 推荐(0) 编辑

分析数据, 缺失值处理 ,去重处理，噪音处理

摘要：分析数据, 缺失值处理 ,去重处理，噪音处理看了charlotte的博客分析数据, 缺失值处理学习总结，很受用，如是将她的画图的部分代码添加完整，可以运行，这样学起来更直观. 1.分析数据在实际项目中，当我们确定需求后就会去找相应的数据，拿到数据后，首先要对数据进行描述性统计分析，查看哪些数阅读全文

posted @ 2017-12-27 12:01 大树2 阅读(663) 评论(0) 推荐(0) 编辑

NLP实现文本分词+在线词云实现工具

摘要：实现文本分词+在线词云实现工具词云是NLP中比较简单而且效果较好的一种表达方式，说到可视化，R语言当仍不让，可见R语言︱文本挖掘——词云wordcloud2包当然用代码写词云还是比较费劲的，网上也有一些成型的软件供大家使用。本节转载于金砖咖啡馆公众号我们词云制作工具是目前非常流行的tagxe 阅读全文

posted @ 2017-12-19 16:23 大树2 阅读(2619) 评论(0) 推荐(0) 编辑

DeepNLP的核心关键/NLP词的表示方法类型/NLP语言模型 /词的分布式表示/word embedding/word2vec

摘要：DeepNLP的核心关键/NLP语言模型 /word embedding/word2vec Indexing: 〇、序一、DeepNLP的核心关键：语言表示（Representation）二、NLP词的表示方法类型 1、词的独热表示one-hot representation 2、词的分布式表示阅读全文

posted @ 2017-12-18 16:43 大树2 阅读(2395) 评论(1) 推荐(0) 编辑

机器学习算法总结

摘要：作者：大树更新时间:2017.12.14 email:59888745@qq.com 说明：因内容较多，会不断更新 xxx学习总结；回主目录：2017 年学习记录和总结机器学习算法总结：线性回归 (Linear Regression) (ML分类) Y=aX+b 利用连续性变量来估计实际数值阅读全文

posted @ 2017-12-14 17:56 大树2 阅读(940) 评论(0) 推荐(0) 编辑

自然语言处理要解决的问题

摘要：自然语言处理要解决的问题: 其实，自然语言处理的应用非常广泛，如：垃圾邮件识别通过自动分析邮件中的文本内容，判断该邮件是否垃圾邮件。中文输入法通过识别输入的拼音字符串，识别用户希望输入的汉字。机器翻译将文本从一种语言转成另一种语言，如中英文机器翻译。自动问答、客服机器人用文本输入一个阅读全文

posted @ 2017-12-08 13:46 大树2 阅读(3414) 评论(1) 推荐(0) 编辑

win7+python3.6+word_cloud 安装出现Microsoft Visual C++ 14.0 is required

摘要：说明环境：已安装Anaconda3 (64-bit) 4.4.0（Python 3.6.1）。其中，代码调试在Spyder 3.1.4中进行，安装包则直接打开Anaconda Prompt调用cmd.exe后进行。系统为Windows 7 和 Windows 10。安装包的坑安装文件的获取阅读全文

posted @ 2017-12-07 10:26 大树2 阅读(31280) 评论(1) 推荐(1) 编辑

One-hot 编码/TF-IDF 值来提取特征,LAD/梯度下降法（Gradient Descent），Sigmoid

摘要：1. 多值无序类数据的特征提取: 多值无序类问题（One-hot 编码）把“耐克”编码为[0,1,0]，其中“1”代表了“耐克”的中间位置，而且是唯一标识。同理我们可以把“中国”标识为[1,0]，把“蓝色”标识为[0,1]。然后把所有的数据编码拼接起来，[“耐克”,“中国”,“蓝色”]的最终编码阅读全文

posted @ 2017-12-06 18:04 大树2 阅读(593) 评论(0) 推荐(0) 编辑

NLTK和jieba这两个python的自然语言包(HMM,rnn,sigmoid

摘要：HMM（Hidden Markov Model，隐马尔可夫模型） CRF（Conditional Random Field，条件随机场）， RNN深度学习算法（Recurrent Neural Networks，循环神经网络）。输入条件连续 LSTM（Long Short Term Memory）则阅读全文

posted @ 2017-12-05 16:36 大树2 阅读(1905) 评论(0) 推荐(0) 编辑

业务解决方案/-数据结构与算法速成

摘要：业务解决方案： 0. 数据源加载 1. 特征工程: 字符转数值/二值型/多值型把字符型特征转化成算法可以处理的数值表示，实现特征抽象.特征是二值型的，如sex 这个字段有male 和fem 两种，就把sex 抽象成0 和1。如果特征的数值是多值型，如status，就按照严重程度从0 到1 再到阅读全文

posted @ 2017-12-05 15:37 大树2 阅读(342) 评论(0) 推荐(0) 编辑

SnowNLP：•中文分词•词性标准•提取文本摘要,•提取文本关键词,•转换成拼音•繁体转简体的处理中文文本的Python3 类库

摘要：SnowNLP是一个python写的类库，可以方便的处理中文文本内容，是受到了TextBlob的启发而写的，由于现在大部分的自然语言处理库基本都是针对英文的，于是写了一个方便处理中文的类库，并且和TextBlob不同的是，这里没有用NLTK，所有的算法都是自己实现的，并且自带了一些训练好的字典。 F 阅读全文

posted @ 2017-12-04 10:17 大树2 阅读(1498) 评论(0) 推荐(0) 编辑

Flask简介,安装,demo,快速入门

摘要：1.Flask简介 Flask是一个相对于Django而言轻量级的Web框架。和Django大包大揽不同，Flask建立于一系列的开源软件包之上，这其中最主要的是WSGI应用开发库Werkzeug和模板引擎Jinja：策略：werkzeug和Jinja这两个库和Flask一样，都是pocoo 阅读全文

posted @ 2017-12-01 12:03 大树2 阅读(413) 评论(0) 推荐(0) 编辑

人工智能,机器学习,深度学习

摘要：所谓人工智能，通俗地讲是指由人工制造出来的系统所表现出来的智能机器学习简单来讲就是通过算法，使机器能从大量历史数据中学习规律，从而对新的样本做出智能识别或对未来做预测机器学习是基于概率统计、矩阵或图模型而得出的分析结论机器学习是人工智能的一个分支深度学习是机器学习的一个新领域监督学习逻辑阅读全文

posted @ 2017-11-17 16:47 大树2 阅读(757) 评论(0) 推荐(0) 编辑

机器学习基本概念,常用经典模型

摘要：1. 机器学习明白一些基本概念什么是机器学习研究如何通过计算的手段，利用经验来改善系统自身的性能通俗来讲，让代码学着干活特征：自变量标签：因变量学习的种类有监督学习：提供标签，分类、回归无监督学习：无标签，聚类增强学习：也称强化学习，马尔科夫决策过程（Markov Decision Proc 阅读全文

posted @ 2017-11-08 15:08 大树2 阅读(2750) 评论(0) 推荐(0) 编辑

用Python从零开始实现K近邻算法

摘要：KNN算法的定义： KNN通过测量不同样本的特征值之间的距离进行分类。它的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。K通常是不大于20的整数。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻阅读全文

posted @ 2017-11-06 17:59 大树2 阅读(1548) 评论(0) 推荐(0) 编辑

Sublime Text 3安装与使用,安装插件,快捷键,默认配置

摘要：本文是Sublime Text 全程指引 by Lucida (http://www.cnblogs.com/figure9/p/sublime-text-complete-guide.html)的笔记，并添加了自己整理的一些内容，感谢原作者。 1. 下载可以从官网 http://www.subl 阅读全文

posted @ 2017-11-06 17:05 大树2 阅读(568) 评论(0) 推荐(0) 编辑

动态可视化数据可视化之魅D3,Processing,pandas数据分析,科学计算包Numpy,可视化包Matplotlib,Matlab语言可视化的工作,Matlab没有指针和引用是个大问题

摘要：动态可视化数据可视化之魅D3,Processing,pandas数据分析,科学计算包Numpy,可视化包Matplotlib,Matlab语言可视化的工作,Matlab没有指针和引用是个大问题 D3.js入门指南什么是D3？D3是指数据驱动文档（Data-Driven Documents），根据阅读全文

posted @ 2017-11-03 11:52 大树2 阅读(579) 评论(0) 推荐(0) 编辑

Web基础 HTML CSS JS JQuery AJAX

摘要：1. Web基础网页的骨骼HTML 什么是HTML超文本标记语言：Hyper Text Markup Language 这都不重要，重要的是：HTML是Web网页的基本组成部分HTML中定义的元素，决定了网页的内容和结构 Python：编程语言，编写程序HTML：标记语言，像画画一样，画出网页的内阅读全文

posted @ 2017-11-02 17:50 大树2 阅读(1699) 评论(0) 推荐(0) 编辑

MAMP和WAMP搭建Web环境,数据库,数据分布可视化

摘要：MAMP和WAMP搭建Web环境,数据库,数据分布可视化 1. 数据库用MAMP和WAMP搭建Web环境,数据分布可视化 Web环境Web服务器：Apache、Nginx，处理Web请求数据库：MySQL，存储和管理数据后端：PHPWeb服务启动后，就可以在浏览器中访问根目录中的网站项目 MAMP 阅读全文

posted @ 2017-11-02 15:00 大树2 阅读(707) 评论(0) 推荐(0) 编辑

公告

本科,10年+全栈程序员，略懂C#,NET，数据库，前后端技术，vue,java,python，目前就职于深圳top级跨境电商公司架构师，拥有国家发明专利，对大型高并发项目有丰富的0-1落地经验，对数据库性能优化深有心得体会。欢迎加我微信chendashu618,了解开发进阶，架构晋升，最新.net,java招聘，面试等问题。

昵称：大树2
园龄： 17年2个月
粉丝： 190
关注： 14

+加关注

2025年3月

日

一

二

三

四

五

六

大树的Blog 程序员猴哥微信 chendashu618

记录学习过程，总结工作经验，探究底层运行逻辑。

随笔分类 - 机器学习和数据挖掘

公告

搜索

常用链接

最新随笔

我的标签

随笔分类

随笔档案

文章档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

大树的Blog 程序员猴哥 微信 chendashu618

记录学习过程，总结工作经验，探究底层运行逻辑。

随笔分类 - 机器学习和数据挖掘

公告

搜索

常用链接

最新随笔

我的标签

随笔分类

随笔档案

文章档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

大树的Blog 程序员猴哥微信 chendashu618