随笔分类 -  BigData

摘要:统计推断 从数据得到关于现实世界的结论的过程就叫做 统计推断(statistical inference) 就是根据你拥有的信息来对现实世界进行某种判断 我们在生活中的推断 可以根据一个人的衣着、言谈和举止判断其身份 看一个脸色,来判断心情好坏,身体状况 统计中的推断也不例外,只不过它是完全依据数据 阅读全文
posted @ 2023-11-01 12:21 VipSoft 阅读(240) 评论(0) 推荐(0) 编辑
摘要:连续型随机变量的概率分布 德国的高斯 法国的拉普拉斯 回到最开始的业务场景 通过统计描述,分析师已经了解了配件A过去的日消耗量波动情况,现希望基于历史数据设定库存控制线,要求该库存量能够保证99%的使用日不会出现库存断货情况。 该怎么办呢? 控制线设置成均数可以吗? 肯定是不可以的,因为均值只是代表 阅读全文
posted @ 2023-10-31 09:10 VipSoft 阅读(259) 评论(0) 推荐(1) 编辑
摘要:在一指定时间范围内或在指定的面积或体积内某一事件出现的次数的分布,他们对应的随机变量的概率服从的分布叫做泊松分布,泊松分布是二项分布的极限 工作中用到的比较少,比二项分布还少 例如: 某企业中每月某设备出现故障的次数 单位时间内到达某一服务台需要服务的顾客人数 举个例子 小王的婶婶新开了一个包子铺, 阅读全文
posted @ 2023-10-30 13:31 VipSoft 阅读(296) 评论(0) 推荐(0) 编辑
摘要:离散型随机变量的概率分布 - 二项分布 伯努利实验 泊松分布 工作中用到的比较少 在现实生活中,许多事件的结果往往只有两个。例如:抛硬币,正面朝上的结果只有两个:国徽或面值;检查某个产品的质量,其结果只有两个:合格或不合格;购买彩票,开奖后,这张彩票的结果只有两个:中奖或没中奖;拨打女朋友电话:接通 阅读全文
posted @ 2023-10-27 15:34 VipSoft 阅读(175) 评论(0) 推荐(0) 编辑
摘要:几个概念 变量: 分类变量 (有序 无序) 数值型变量 (连续 离)概率:度量随机事件发生的可能性的大小 小概率事件: 统计学当中认为,发生的概率小于等于0.05,我们就认为它是一个小概率事件随机变量: 随机事件的数量化 离散型随机变量 连续型随机变量总体:基研究目的的所有数据的集合 样本: 从总体 阅读全文
posted @ 2023-10-25 17:34 VipSoft 阅读(74) 评论(0) 推荐(0) 编辑
摘要:数据分析 是利用数学、统计学理论相结合的科学统计分析方法、对 Excel数据、数据库中的数据、收集的大量数据、网页抓取的数据进行分析,从中提取有价值的信息并开成结论进行展示的过程 数据分析主要内容 现状分析:分析已经发生了什么 原因分析:分析为什么会出现这种现状 预测分析:预测未来可能发生什么 数据 阅读全文
posted @ 2023-10-24 17:44 VipSoft 阅读(52) 评论(0) 推荐(0) 编辑
摘要:统计表 统计表是反映统计资料的表格,它一般由四个主要部分组成,即表头、行标题、列标题和数据资料。 设计和使用统计表要注意的几点: 首先,要合理安排统计表的结构。由于强调的问题不同,行标题和列标题可以互换,但应使统计表的横竖长度比例适当,避免出现过高或过宽的表格形式 其次,表头一般应包括表号、总标题和 阅读全文
posted @ 2023-10-23 16:33 VipSoft 阅读(511) 评论(0) 推荐(0) 编辑
摘要:搜素关键字自动补全(suggest),分词全文搜索 系统初始化,ElasticSearch ES 创建索引(EsIndexTest.createIndexTest) 模拟后台管理员,在添加文章时,将要检查的字段内容,同步到ES中(EsIndexTest.addArticleTest) 模拟用户搜索,在搜索框中查关键词“人工”(EsIndexTest.earchTest) 阅读全文
posted @ 2023-03-23 08:43 VipSoft 阅读(2082) 评论(0) 推荐(4) 编辑
摘要:ES使用Completion Suggest 做关键字自动补全时,实际应用中搜索性能更加高效,建议多开一个子字段,如下示例,假设要根据title字段做关键字自动补全,不要改原字段的类型,多开一个子字段title.suggest,类型设置为completion,然后之后的suggest针对title.suggest字段做操作 阅读全文
posted @ 2023-03-22 08:48 VipSoft 阅读(1319) 评论(0) 推荐(2) 编辑
摘要:目录 ElasticSearch 实现分词全文检索 - 概述 ElasticSearch 实现分词全文检索 - ES、Kibana、IK安装 ElasticSearch 实现分词全文检索 - Restful基本操作 ElasticSearch 实现分词全文检索 - Java SpringBoot E 阅读全文
posted @ 2023-03-21 12:39 VipSoft 阅读(269) 评论(0) 推荐(0) 编辑
摘要:目录 ElasticSearch 实现分词全文检索 - 概述 ElasticSearch 实现分词全文检索 - ES、Kibana、IK安装 ElasticSearch 实现分词全文检索 - Restful基本操作 ElasticSearch 实现分词全文检索 - Java SpringBoot E 阅读全文
posted @ 2023-03-21 09:44 VipSoft 阅读(566) 评论(0) 推荐(0) 编辑
摘要:目录 ElasticSearch 实现分词全文检索 - 概述 ElasticSearch 实现分词全文检索 - ES、Kibana、IK安装 ElasticSearch 实现分词全文检索 - Restful基本操作 ElasticSearch 实现分词全文检索 - Java SpringBoot E 阅读全文
posted @ 2023-03-20 08:58 VipSoft 阅读(355) 评论(0) 推荐(0) 编辑
摘要:query,根据查询条件,去计算文档的匹配度得到一个分数,并且根据分数进行排序,不会做缓存。【精准匹配度高】 filter,根据查询条件去查询文档,不去计算分数,而且filter会对经常被过滤的数据进行缓存。【查询效率会高】 阅读全文
posted @ 2023-03-17 13:59 VipSoft 阅读(243) 评论(0) 推荐(0) 编辑
摘要:boosting 查询可以帮助我们去影响查询后的 score - positive:只有匹配上positive的查询的内容,才会被放到返回的结果中 - negative:如果匹配上和positive并且也匹配上了negative,就可以降低这样的文档 score. - negative_boost:指定系数,必须小于 1.0 关于查询时,分数是如何计算的: - 搜索的关键字在文档中出现的频次越高,分数就越高 - 指定的文档内容越短,分数就越高 - 我们在搜索时,指定的关键字也会被分词,这个被分词的内容,被分词库匹配的个数越多,分数越高 阅读全文
posted @ 2023-03-16 09:55 VipSoft 阅读(343) 评论(0) 推荐(0) 编辑
摘要:delete-by-query 根据 term、match 等查询方式去删除大量的文档 > 如果需要删除的内容,是index下的大部分数据,不建议使用,因为去匹配文档时还是一个一个的拿到文档ID,去删除 推荐创建一个全新的index,将保留的文档内容,添加到全新的索引中 阅读全文
posted @ 2023-03-15 13:04 VipSoft 阅读(245) 评论(0) 推荐(0) 编辑
摘要:ES 对 from + size 有限制,两者之和不能超过1W Scroll查询方式,不适合做实时的查询,每次都是从数据文档中的ID去获取,效果高了,但文档中的ID(第二步)不是实时更新的,一般后台管理的方式用 Scroll 比较方便 阅读全文
posted @ 2023-03-14 15:16 VipSoft 阅读(399) 评论(0) 推荐(0) 编辑
摘要:fuzzy查询:模糊查询,我们输入字符的大概,ES就可以 wildcard 查询:通配查询,和MySQL中的 like 差不多,可以在查询时,在字符串中指定通配符 * 和占位符? range 查询:范围查询,只针对数值类型,对某一个Field进行大于或小于的范围指定查询 regexp 查询: 正则查询,通过你编写的正则表达式去匹配内容 阅读全文
posted @ 2023-03-14 09:05 VipSoft 阅读(464) 评论(0) 推荐(0) 编辑
摘要://1. 准备索引的 settings Settings.Builder settings = Settings.builder() //2. 准备索引的结构 Mappings XContentBuilder mappings = JsonXContent.contentBuilder() //3. 将 Settings 和 Mappings 封装到一个Request 对象中 CreateIndexRequest request = new CreateIndexRequest(indexName) //4. 通过 client 对象去连接ES并执行创建索引 CreateIndexResponse resp = client.indices().create(request, RequestOptions.DEFAULT); 阅读全文
posted @ 2023-03-07 08:46 VipSoft 阅读(751) 评论(0) 推荐(0) 编辑
摘要:GET 请求: ``` http://ip:port/index: 查询索引信息 http://ip;port/index/type/doc_id: 查询指定的文档信息 ``` POST 请求: ``` http://ip;port/index/type/_search: 查询文档,可以在请求体中添加json字符串来代表查询条件 http://ip;port/index/type/doc_id/_update: 修改文档,在请求体中指定ison字符串代表修改的具体信息 ``` PUT 请求: ``` http://ip;port/index: 创建一个索引,需要在请求体中指定索引的信息,类型,结构 http://ip:port/index/type/_mappings: 代表创建索引时,指定索引文档存储的属性的信息 ``` DELETE 请求: ``` http://ip;port/index: 删除跑路 http://ip;port/index/type/doc_id: 删除指定的文档 阅读全文
posted @ 2023-03-06 08:50 VipSoft 阅读(396) 评论(0) 推荐(1) 编辑
摘要:先把zip下载下来。放到任意一台服务器(直接github上下载多数会失败)elasticsearch-plugin install http://172.16.0.183:8899/Java/elasticsearch-analysis-ik-7.9.3.zip 阅读全文
posted @ 2023-03-03 16:47 VipSoft 阅读(1010) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示