上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 33 下一页

2020年3月3日

机器学习-文本聚类实例-kmeans

摘要: 机器学习-文本聚类实例-kmeans import os import gensim import jieba from gensim.models.doc2vec import Doc2Vec from sklearn.cluster import KMeans TaggededDocument 阅读全文

posted @ 2020-03-03 21:19 嘣嘣嚓 阅读(1616) 评论(0) 推荐(0)

2020年2月27日

机器学习-文本分类实例-朴素贝叶斯

摘要: 机器学习-文本分类实例-朴素贝叶斯 1.准备训练样本 使用的复旦大学文本分类样本数据 2.训练模型 3.准备测试数据 4.分类 训练模型 import os import jieba #Bunch类 from sklearn.datasets.base import Bunch import pic 阅读全文

posted @ 2020-02-27 21:28 嘣嘣嚓 阅读(863) 评论(0) 推荐(0)

2020年2月26日

机器学习-矩阵空间的变换

摘要: 机器学习-矩阵空间的变换 由特征列的取值范围所有构成的矩阵空间应具有完整性,即能够反映事物的空间形式或变化规律。 向量 无论在几何还是在物理上,向量都是一个有方向、有大小的量,而向量的点坐标不过表征了该向量与坐标系原点的距离,以及与坐标系的夹角而已。 向量不是一个点,而是一个有向的线段,线段的长度是 阅读全文

posted @ 2020-02-26 21:03 嘣嘣嚓 阅读(940) 评论(0) 推荐(0)

2020年2月24日

机器学习-随机性、概率论、多元统计、特征间的相关性

摘要: 机器学习-随机性、概率论、多元统计、特征间的相关性 随机性 洛伦兹动力学方程:美国气象学家洛伦兹建立了一个描述大气对流状况的数学模型。 洛伦兹动力学方程描绘出的运动轨迹具有一种奇特的形状,像一只展开了双翼的蝴蝶,所以又称为蝴蝶效应。 在这个蝴蝶上,确定性和随机性被统一在一起:一方面,运动的轨迹必然落 阅读全文

posted @ 2020-02-24 21:14 嘣嘣嚓 阅读(1079) 评论(0) 推荐(0)

2020年2月22日

机器学习-各距离定义

摘要: 机器学习-各类距离的定义 两个向量之间的距离(此时向量作为n维坐标系中的点)计算,在数学上称为向量的距离(distance),也称为样本之间的相似性度量(Similarity Measurement) 它反映为某类事物在距离上接近或远离的程度。直觉上,距离越近的就越相似,越容易归为一类;距离越远就越 阅读全文

posted @ 2020-02-22 16:29 嘣嘣嚓 阅读(914) 评论(0) 推荐(0)

2019年8月31日

数据挖掘-挖掘频繁模式、关联和相关性:基本概念和方法

摘要: 挖掘频繁模式、关联和相关性:基本概念和方法 频繁模式(frequent pattern)是频繁地出现在数据集中的模式(如项集、子序列或子结构)。 例如,频繁地同时出现在交易数据集中的商品(如牛奶和面包)的集合是频繁项集。 一个子序列,如首先购买PC,然后是数码相机,再后是内存卡,如果它频繁地出现在购 阅读全文

posted @ 2019-08-31 22:34 嘣嘣嚓 阅读(1594) 评论(0) 推荐(1)

2019年7月14日

Elasticsearch-删除数据

摘要: ES-删除数据 删除单个文档或者一组文档。这样做的时候,ES只是将它们标记为删除,所以它们不会再出现于搜索结果中,稍后ES通过异步的方式将它们彻底的从索引中移出。 删除整个索引。这是删除多组文档的特例。但是不同点在于这样做的性能更好。主要的工作就是移除和那个索引相关的所有文件,几乎是瞬间就能完成。 阅读全文

posted @ 2019-07-14 22:33 嘣嘣嚓 阅读(20475) 评论(0) 推荐(2)

Elasticsearch-更新现有文档

摘要: ES-更新现有文档 ES的更新API允许发送文档所需要做的修改,而且API会返回一个答复,告知操作是否成功。更新流程如下 1. 检索现有的文档。为了使这步奏效,必须打开_source字段,否则ES并不知道原有文档的内容。2. 进行制定的修改。例如,如果文档是{"name":"Elasticsearc 阅读全文

posted @ 2019-07-14 20:51 嘣嘣嚓 阅读(2917) 评论(0) 推荐(1)

2019年7月1日

Elasticsearch-如何识别一篇文档

摘要: ES-识别文档 为了识别同一个索引中的某篇文档,ES使用_uid中的文档类型和ID结合体。_uid字段是由_id和_type字段组成,当搜索或者检索文档的时候总是能获得这两项信息。 由于所有的文档都位于同一个Lucene的索引中,ES内部使用_uid来唯一确定文档的身份。类型和ID的分离是一种抽象, 阅读全文

posted @ 2019-07-01 23:04 嘣嘣嚓 阅读(375) 评论(0) 推荐(1)

2019年6月30日

Elasticsearch-如何控制存储和索引文档(_source、_all、返回源文档的某些字段)

摘要: Elasticsearch-如何控制存储和索引文档(_source、_all) _source:可以在索引中存储文档。_all:可以在单个字段上索引所有内容。 1. 存储原有内容的_source _source字段按照原有格式来存储原有的文档。这一点可以看到匹配某个搜索的文档,而不仅仅是他们的ID。 阅读全文

posted @ 2019-06-30 22:23 嘣嘣嚓 阅读(1631) 评论(0) 推荐(1)

上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 33 下一页

导航