随笔分类 -  机器学习和数据挖掘

摘要:最近看了周志华老师的书,主要内容如下,涉及到很多机器学习的知识点: by [2017.12.29 更新 denny shenzhen 59888745@qq.com] 1.线性模型: 3.在样本空间找一个超平面,将不同类别的样本分开; 2.决策树:CSL,ID3,C4.5算法 ID3中根据属性值分割 阅读全文
posted @ 2017-12-29 15:36 大树2 阅读(406) 评论(0) 推荐(0) 编辑
摘要:分析数据, 缺失值处理 ,去重处理, 噪音处理 看了charlotte的博客分析数据, 缺失值处理 学习总结,很受用,如是将她的画图的部分代码添加完整,可以运行,这样学起来更直观. 1.分析数据 在实际项目中,当我们确定需求后就会去找相应的数据,拿到数据后,首先要对数据进行描述性统计分析,查看哪些数 阅读全文
posted @ 2017-12-27 12:01 大树2 阅读(663) 评论(0) 推荐(0) 编辑
摘要:实现文本分词+在线词云实现工具 词云是NLP中比较简单而且效果较好的一种表达方式,说到可视化,R语言当仍不让,可见R语言︱文本挖掘——词云wordcloud2包 当然用代码写词云还是比较费劲的,网上也有一些成型的软件供大家使用。 本节转载于金砖咖啡馆公众号 我们词云制作工具是目前非常流行的tagxe 阅读全文
posted @ 2017-12-19 16:23 大树2 阅读(2619) 评论(0) 推荐(0) 编辑
摘要:DeepNLP的核心关键/NLP语言模型 /word embedding/word2vec Indexing: 〇、序 一、DeepNLP的核心关键:语言表示(Representation) 二、NLP词的表示方法类型 1、词的独热表示one-hot representation 2、词的分布式表示 阅读全文
posted @ 2017-12-18 16:43 大树2 阅读(2395) 评论(1) 推荐(0) 编辑
摘要:作者:大树更新时间:2017.12.14 email:59888745@qq.com 说明:因内容较多,会不断更新 xxx学习总结; 回主目录:2017 年学习记录和总结 机器学习算法总结: 线性回归 (Linear Regression) (ML分类) Y=aX+b 利用连续性变量来估计实际数值 阅读全文
posted @ 2017-12-14 17:56 大树2 阅读(940) 评论(0) 推荐(0) 编辑
摘要:自然语言处理要解决的问题: 其实,自然语言处理的应用非常广泛,如: 垃圾邮件识别 通过自动分析邮件中的文本内容,判断该邮件是否垃圾邮件。 中文输入法 通过识别输入的拼音字符串,识别用户希望输入的汉字。 机器翻译 将文本从一种语言转成另一种语言,如中英文机器翻译。 自动问答、客服机器人 用文本输入一个 阅读全文
posted @ 2017-12-08 13:46 大树2 阅读(3414) 评论(1) 推荐(0) 编辑
摘要:说明 环境: 已安装Anaconda3 (64-bit) 4.4.0(Python 3.6.1)。其中,代码调试在Spyder 3.1.4中进行,安装包则直接打开Anaconda Prompt调用cmd.exe后进行。 系统为Windows 7 和 Windows 10。 安装包的坑 安装文件的获取 阅读全文
posted @ 2017-12-07 10:26 大树2 阅读(31280) 评论(1) 推荐(1) 编辑
摘要:1. 多值无序类数据的特征提取: 多值无序类问题(One-hot 编码)把“耐克”编码为[0,1,0],其中“1”代表了“耐克”的中 间位置,而且是唯一标识。同理我们可以把“中国”标识为[1,0],把“蓝色”标识为[0,1]。 然后把所有的数据编码拼接起来,[“耐克”,“中国”,“蓝色”]的最终编码 阅读全文
posted @ 2017-12-06 18:04 大树2 阅读(593) 评论(0) 推荐(0) 编辑
摘要:HMM(Hidden Markov Model,隐马尔可夫模型) CRF(Conditional Random Field,条件随机场), RNN深度学习算法(Recurrent Neural Networks,循环神经网络)。输入条件连续 LSTM(Long Short Term Memory)则 阅读全文
posted @ 2017-12-05 16:36 大树2 阅读(1905) 评论(0) 推荐(0) 编辑
摘要:业务解决方案: 0. 数据源加载 1. 特征工程: 字符转数值/二值型/多值型 把字符型特征转化成算法可以处理的数值表示,实现特征抽象.特征是二值型的, 如sex 这个字段有male 和fem 两种,就把sex 抽象成0 和1。如果特征的数值是多值型, 如status,就按照严重程度从0 到1 再到 阅读全文
posted @ 2017-12-05 15:37 大树2 阅读(342) 评论(0) 推荐(0) 编辑
摘要:SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。 F 阅读全文
posted @ 2017-12-04 10:17 大树2 阅读(1498) 评论(0) 推荐(0) 编辑
摘要:1.Flask简介 Flask是一个相对于Django而言轻量级的Web框架。 和Django大包大揽不同,Flask建立于一系列的开源软件包之上,这其中 最主要的是WSGI应用开发库Werkzeug和模板引擎Jinja: 策略 :werkzeug和Jinja这两个库和Flask一样,都是pocoo 阅读全文
posted @ 2017-12-01 12:03 大树2 阅读(413) 评论(0) 推荐(0) 编辑
摘要:所谓人工智能,通俗地讲是指由人工制造出来的系统所表现出来的智能 机器学习简单来讲就是通过算法,使机器能从大量历史数据中学习规律,从而对新的样本做出智能识别或对未来做预测 机器学习是基于概率统计、矩阵或图模型而得出的分析结论 机器学习是人工智能的一个分支 深度学习是机器学习的一个新领域 监督学习 逻辑 阅读全文
posted @ 2017-11-17 16:47 大树2 阅读(757) 评论(0) 推荐(0) 编辑
摘要:1. 机器学习 明白一些基本概念 什么是机器学习研究如何通过计算的手段,利用经验来改善系统自身的性能通俗来讲,让代码学着干活 特征:自变量标签:因变量 学习的种类有监督学习:提供标签,分类、回归无监督学习:无标签,聚类增强学习:也称强化学习,马尔科夫决策过程(Markov Decision Proc 阅读全文
posted @ 2017-11-08 15:08 大树2 阅读(2750) 评论(0) 推荐(0) 编辑
摘要:KNN算法的定义: KNN通过测量不同样本的特征值之间的距离进行分类。它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻 阅读全文
posted @ 2017-11-06 17:59 大树2 阅读(1548) 评论(0) 推荐(0) 编辑
摘要:本文是Sublime Text 全程指引 by Lucida (http://www.cnblogs.com/figure9/p/sublime-text-complete-guide.html)的笔记,并添加了自己整理的一些内容,感谢原作者。 1. 下载 可以从官网 http://www.subl 阅读全文
posted @ 2017-11-06 17:05 大树2 阅读(568) 评论(0) 推荐(0) 编辑
摘要:动态可视化 数据可视化之魅D3,Processing,pandas数据分析,科学计算包Numpy,可视化包Matplotlib,Matlab语言可视化的工作,Matlab没有指针和引用是个大问题 D3.js入门指南 什么是D3?D3是指数据驱动文档(Data-Driven Documents),根据 阅读全文
posted @ 2017-11-03 11:52 大树2 阅读(579) 评论(0) 推荐(0) 编辑
摘要:1. Web基础 网页的骨骼HTML 什么是HTML超文本标记语言:Hyper Text Markup Language 这都不重要,重要的是:HTML是Web网页的基本组成部分HTML中定义的元素,决定了网页的内容和结构 Python:编程语言,编写程序HTML:标记语言,像画画一样,画出网页的内 阅读全文
posted @ 2017-11-02 17:50 大树2 阅读(1699) 评论(0) 推荐(0) 编辑
摘要:MAMP和WAMP搭建Web环境,数据库,数据分布可视化 1. 数据库 用MAMP和WAMP搭建Web环境,数据分布可视化 Web环境Web服务器:Apache、Nginx,处理Web请求数据库:MySQL,存储和管理数据后端:PHPWeb服务启动后,就可以在浏览器中访问根目录中的网站项目 MAMP 阅读全文
posted @ 2017-11-02 15:00 大树2 阅读(707) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示