12 2017 档案
摘要:最近看了周志华老师的书,主要内容如下,涉及到很多机器学习的知识点: by [2017.12.29 更新 denny shenzhen 59888745@qq.com] 1.线性模型: 3.在样本空间找一个超平面,将不同类别的样本分开; 2.决策树:CSL,ID3,C4.5算法 ID3中根据属性值分割
阅读全文
摘要:分析数据, 缺失值处理 ,去重处理, 噪音处理 看了charlotte的博客分析数据, 缺失值处理 学习总结,很受用,如是将她的画图的部分代码添加完整,可以运行,这样学起来更直观. 1.分析数据 在实际项目中,当我们确定需求后就会去找相应的数据,拿到数据后,首先要对数据进行描述性统计分析,查看哪些数
阅读全文
摘要:实现文本分词+在线词云实现工具 词云是NLP中比较简单而且效果较好的一种表达方式,说到可视化,R语言当仍不让,可见R语言︱文本挖掘——词云wordcloud2包 当然用代码写词云还是比较费劲的,网上也有一些成型的软件供大家使用。 本节转载于金砖咖啡馆公众号 我们词云制作工具是目前非常流行的tagxe
阅读全文
摘要:DeepNLP的核心关键/NLP语言模型 /word embedding/word2vec Indexing: 〇、序 一、DeepNLP的核心关键:语言表示(Representation) 二、NLP词的表示方法类型 1、词的独热表示one-hot representation 2、词的分布式表示
阅读全文
摘要:作者:大树更新时间:2017.12.14 email:59888745@qq.com 说明:因内容较多,会不断更新 xxx学习总结; 回主目录:2017 年学习记录和总结 机器学习算法总结: 线性回归 (Linear Regression) (ML分类) Y=aX+b 利用连续性变量来估计实际数值
阅读全文
摘要:在自然语言处理和文本分析的问题中,词袋(Bag of Words, BOW)和词向量(Word Embedding)是两种最常用的模型。更准确地说,词向量只能表征单个词,如果要表示文本,需要做一些额外的处理。下面就简单聊一下两种模型的应用。 所谓BOW,就是将文本/Query看作是一系列词的集合。由
阅读全文
摘要:自然语言处理要解决的问题: 其实,自然语言处理的应用非常广泛,如: 垃圾邮件识别 通过自动分析邮件中的文本内容,判断该邮件是否垃圾邮件。 中文输入法 通过识别输入的拼音字符串,识别用户希望输入的汉字。 机器翻译 将文本从一种语言转成另一种语言,如中英文机器翻译。 自动问答、客服机器人 用文本输入一个
阅读全文
摘要:说明 环境: 已安装Anaconda3 (64-bit) 4.4.0(Python 3.6.1)。其中,代码调试在Spyder 3.1.4中进行,安装包则直接打开Anaconda Prompt调用cmd.exe后进行。 系统为Windows 7 和 Windows 10。 安装包的坑 安装文件的获取
阅读全文
摘要:1. 多值无序类数据的特征提取: 多值无序类问题(One-hot 编码)把“耐克”编码为[0,1,0],其中“1”代表了“耐克”的中 间位置,而且是唯一标识。同理我们可以把“中国”标识为[1,0],把“蓝色”标识为[0,1]。 然后把所有的数据编码拼接起来,[“耐克”,“中国”,“蓝色”]的最终编码
阅读全文
摘要:HMM(Hidden Markov Model,隐马尔可夫模型) CRF(Conditional Random Field,条件随机场), RNN深度学习算法(Recurrent Neural Networks,循环神经网络)。输入条件连续 LSTM(Long Short Term Memory)则
阅读全文
摘要:业务解决方案: 0. 数据源加载 1. 特征工程: 字符转数值/二值型/多值型 把字符型特征转化成算法可以处理的数值表示,实现特征抽象.特征是二值型的, 如sex 这个字段有male 和fem 两种,就把sex 抽象成0 和1。如果特征的数值是多值型, 如status,就按照严重程度从0 到1 再到
阅读全文
摘要:SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。 F
阅读全文
摘要:1.Flask简介 Flask是一个相对于Django而言轻量级的Web框架。 和Django大包大揽不同,Flask建立于一系列的开源软件包之上,这其中 最主要的是WSGI应用开发库Werkzeug和模板引擎Jinja: 策略 :werkzeug和Jinja这两个库和Flask一样,都是pocoo
阅读全文