随笔分类 -  自然语言处理NLP

NLP
摘要:pandas 学习总结 作者:csj 更新时间:2018.04.02 shenzhen email:59888745@qq.com home: http://www.cnblogs.com/csj007523/p/8149929.html 1.import 2.export 3.create obj 阅读全文
posted @ 2018-04-02 18:04 大树2 阅读(270) 评论(0) 推荐(0) 编辑
摘要:1 场景解析: a.数据探查(数据量的大小,数据缺失或乱码,ETL 操作,字段类型,是否含有目标队列) b.场景抽象(是通过已有的数据,挖掘出可以应用的业务场景。机器学习主要用来解决的场景包括二分类、多分类、聚类和回归) c.算法选择(是确定算法范围、多算法尝试和多视角分析寻找最适合自身业务的算法) 阅读全文
posted @ 2018-03-01 10:29 大树2 阅读(427) 评论(0) 推荐(0) 编辑
摘要:作者:大树 更新时间:01.20 email:59888745@qq.com 数据处理,机器学习 回主目录:2017 年学习记录和总结 In [ ]: Kaggle上有很多有意思的项目,大家得空可以试着做一做,其中有个关于香港赛马预测的项目,若大家做的效果好, 预测的结果准确度高的话,可以轻松的 g 阅读全文
posted @ 2018-02-05 11:56 大树2 阅读(1664) 评论(0) 推荐(0) 编辑
摘要:人脸识别 人脸识别技术是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部的一系列相关技术,通常也叫做人像识别、面部识别 人脸识别流程人脸识别技术流程主要包括四个组成部分,分别为:人脸图像采集及检测 阅读全文
posted @ 2018-01-24 17:49 大树2 阅读(938) 评论(0) 推荐(0) 编辑
摘要:作者:csj更新时间:01.15 email:59888745@qq.com 说明:因内容较多,会不断更新 xxx学习总结; 回主目录:2017 年学习记录和总结 1 安装spark及简介 spark 是用scala语言编写的一套分布式内存计算系统,他的核心抽象模型是RDD(弹性分布式数据集),围绕 阅读全文
posted @ 2018-01-15 17:07 大树2 阅读(422) 评论(0) 推荐(0) 编辑
摘要:matplotlib 学习总结 作者:csj更新时间:01.09 email:59888745@qq.com 说明:因内容较多,会不断更新 xxx学习总结; 回主目录:2017 年学习记录和总结 import matplotlib.pyplot as plt import numpy as np x 阅读全文
posted @ 2018-01-15 10:05 大树2 阅读(963) 评论(0) 推荐(0) 编辑
摘要:作者:csj更新时间:01.09 email:59888745@qq.com 说明:因内容较多,会不断更新 xxx学习总结; 回主目录:2017 年学习记录和总结 阅读全文
posted @ 2018-01-12 16:12 大树2 阅读(530) 评论(0) 推荐(0) 编辑
摘要:pandas的学习总结 作者:csj更新时间:2017.12.31 email:59888745@qq.com 说明:因内容较多,会不断更新 xxx学习总结; 回主目录:2017 年学习记录和总结 1.pandas简介2.pandas数据结构 Series DataFrame Index csv文件 阅读全文
posted @ 2018-01-07 16:29 大树2 阅读(2671) 评论(0) 推荐(0) 编辑
摘要:数据获取,解析,存储等知识的学习总结 作者:csj更新时间:2017.12.31 email:59888745@qq.com 说明:因内容较多,会不断更新 xxx学习总结,此部分已更新完; 回主目录:2017 年学习记录和总结 我们在数据处理,数据分析时,数据的来源有: 1.直接读取已有的.csv; 阅读全文
posted @ 2018-01-07 16:28 大树2 阅读(333) 评论(0) 推荐(0) 编辑
摘要:今天是2017年12月30日,2017年的年尾,2018年马上就要到了,回顾2017过的确实很快,不知不觉就到年末了,再次开篇对2016.2017年的学习数据挖掘,机器学习方面的知识做一个总结,对自己所学的知识也做一个梳理,查漏补缺关于数据挖据、数据分析,可视化,ML,DL,NLP等。 作者:csj 阅读全文
posted @ 2018-01-07 16:27 大树2 阅读(1642) 评论(0) 推荐(0) 编辑
摘要:最近看了周志华老师的书,主要内容如下,涉及到很多机器学习的知识点: by [2017.12.29 更新 denny shenzhen 59888745@qq.com] 1.线性模型: 3.在样本空间找一个超平面,将不同类别的样本分开; 2.决策树:CSL,ID3,C4.5算法 ID3中根据属性值分割 阅读全文
posted @ 2017-12-29 15:36 大树2 阅读(405) 评论(0) 推荐(0) 编辑
摘要:实现文本分词+在线词云实现工具 词云是NLP中比较简单而且效果较好的一种表达方式,说到可视化,R语言当仍不让,可见R语言︱文本挖掘——词云wordcloud2包 当然用代码写词云还是比较费劲的,网上也有一些成型的软件供大家使用。 本节转载于金砖咖啡馆公众号 我们词云制作工具是目前非常流行的tagxe 阅读全文
posted @ 2017-12-19 16:23 大树2 阅读(2616) 评论(0) 推荐(0) 编辑
摘要:DeepNLP的核心关键/NLP语言模型 /word embedding/word2vec Indexing: 〇、序 一、DeepNLP的核心关键:语言表示(Representation) 二、NLP词的表示方法类型 1、词的独热表示one-hot representation 2、词的分布式表示 阅读全文
posted @ 2017-12-18 16:43 大树2 阅读(2394) 评论(1) 推荐(0) 编辑
摘要:在自然语言处理和文本分析的问题中,词袋(Bag of Words, BOW)和词向量(Word Embedding)是两种最常用的模型。更准确地说,词向量只能表征单个词,如果要表示文本,需要做一些额外的处理。下面就简单聊一下两种模型的应用。 所谓BOW,就是将文本/Query看作是一系列词的集合。由 阅读全文
posted @ 2017-12-09 09:29 大树2 阅读(18721) 评论(0) 推荐(0) 编辑
摘要:自然语言处理要解决的问题: 其实,自然语言处理的应用非常广泛,如: 垃圾邮件识别 通过自动分析邮件中的文本内容,判断该邮件是否垃圾邮件。 中文输入法 通过识别输入的拼音字符串,识别用户希望输入的汉字。 机器翻译 将文本从一种语言转成另一种语言,如中英文机器翻译。 自动问答、客服机器人 用文本输入一个 阅读全文
posted @ 2017-12-08 13:46 大树2 阅读(3413) 评论(1) 推荐(0) 编辑

点击右上角即可分享
微信分享提示