摘要: 1 聚类 “无监督学习”,目标:通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。研究最多,应用最广的是“聚类”。 聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”。 这些概念对簇算法而言是事先未知的,聚类过程仅能自动形成簇结构,簇对应的 阅读全文
posted @ 2019-07-04 21:54 hi_mxd 阅读(433) 评论(0) 推荐(0) 编辑
摘要: 在用python进行编程的时候,通过改变Python安装目录下的python.exe的文件名,在cmd中指定相应的更改后的文件名,可以进入不同的python编译器中; 而对于pip来说,如果安装了Anaconda2和python2两个编译器,在python安装目录下的script中的pip是一样的,故无法指定安装的目录,经研究,可以采用下面的命令行指定相对应的python包的安装路径。 p... 阅读全文
posted @ 2018-09-14 15:59 hi_mxd 阅读(1011) 评论(0) 推荐(0) 编辑
摘要: 空间分析是指分析具有空间坐标或相对位置的数据和过程的理论和方法。 空间分析和各种其他分析方法比较而言,其独特性主要体现在如下的方面: 空间数据中普遍存在的空间相关性使其与经典统计学经常要求的样本独立性前提相悖,直接造成使用经典统计学分析空间数据得到的结论是有偏的和非最优的; 空间数据一般具有不可重复性,观察到的数据只是空间过程的一次实现,因此,必须在一定的假设条件下,空间数据才是可统计的; 考... 阅读全文
posted @ 2018-09-13 19:59 hi_mxd 阅读(1197) 评论(0) 推荐(0) 编辑
摘要: 本文主要借鉴https://blog.csdn.net/cloume/article/details/74931998 具体细节补充如下:1.在mongodb中bin文件夹中进行的操作; 操作分为两种,一种是在Mongodb shell中进行的(在bin文件夹中打开cmd窗口,输入mongo,进入shell模式); 另一种是直接在bin文件夹中打开cmd窗口进行的; 2.具体过程为: 1)将... 阅读全文
posted @ 2018-09-07 21:05 hi_mxd 阅读(666) 评论(0) 推荐(0) 编辑
摘要: 表示数据集的常用方法 表示数据集的常用方法是设计矩阵(design matrix)。 设计矩阵的每一行包含一个不同的样本。每一列对应于不同的特征。 例如,Iris数据集包含150个样本,每个样本有4个特征。这意味着我们可以将数据集表为设计矩阵 。 当然,每个样本都可以表示成向量,并且这些向量的维度相同,才能将一个数据集表示成设计矩阵。在许多情况下,存在着不同类型的异构数据,由于... 阅读全文
posted @ 2018-09-05 16:30 hi_mxd 阅读(2837) 评论(0) 推荐(0) 编辑
摘要: 利用计算机实现数值计算,指的通常是利用迭代过程更新解来解决数学问题,而不是通过解析过程推到数学公式求解。常见得数值计算主要包括优化问题求解和解线性方程组。 上溢和下溢 通常实数在计算机内不能精确保存,利用计算机保存实数时,几乎总会引入一些近似误差。在许多情况下,这仅仅是舍入误差,舍入误差会导致一些问题。特别是在一些复合操作下, 理论上可行的算法,如果在实际中没有考虑到舍入误差的累积,在实际算法... 阅读全文
posted @ 2018-09-05 14:57 hi_mxd 阅读(6353) 评论(0) 推荐(0) 编辑
摘要: 文本深度特征提取 注:本文内容摘自《深度学习算法实践》 为何要研究文本深度特征? ——因为文本深度特征无论对于文本分类还是文本预测,都是非常重要的。 文本特征的提取说白了就是将自然语言理解的问题转化成机器学习的问题。第一步肯定是找一种合适的方法,把语言表达数学化,即用可量化的方式来表示文本的特征。 下面将简单介绍一下文本的深度特征是如何量化的。 词特征表示 文本的深度特征有四种表示方法... 阅读全文
posted @ 2018-08-31 20:30 hi_mxd 阅读(1791) 评论(0) 推荐(0) 编辑
摘要: 注:本文摘录自深度学习算法实践 情感倾向分析得方法主要有两类: 基于情感词典的方法; 基于机器学习的方法 其中,基于情感词典的方法需要用到标注好的情感词典,英文的词典有很多,中文的话,主要有知网整理的Hownet和台湾大学整理发布额NTUSD这两个情感词典。另外,哈工大信息检索研究实验室开源的《同义词词林》也可以作为情感词典的补充。 基于机器学习的方法需要大量人工标注的预料作为... 阅读全文
posted @ 2018-08-30 20:32 hi_mxd 阅读(1234) 评论(0) 推荐(0) 编辑
摘要: python读取csv编码问题 主要参考https://www.cnblogs.com/shengulong/p/7097869.html https://www.cnblogs.com/buptldf/p/4805879.html 首先对相关编码进行简单的介绍: ASCII码 由于计算机只能处理数字,当处理文本时,需要将文本转换为数字。 最早计算机设计采用8比特作为一个字节,所... 阅读全文
posted @ 2018-08-29 19:59 hi_mxd 阅读(6169) 评论(0) 推荐(0) 编辑
摘要: 4.2 特征提取 sklearn.feature_extraction 模块可以被用来从包含文本或者特片的数据集中提取出适用于机器学习算法的特征。 注意:特征提取和特征选择是极不相同的:前者由任意数据组成,比如文本或者图片,转换为适用于机器学习的数字。后者是应用于这些特征的机器学习方法。4.2.1 从字典中加载特征 类DictVectorizer可以将由python标准的列表dict对象所表示... 阅读全文
posted @ 2018-08-28 09:45 hi_mxd 阅读(2801) 评论(0) 推荐(1) 编辑