Fork me on GitHub

随笔分类 -  数据挖掘

摘要:1998年,国家统计局将工业统计范围划分为规模以上和规模以下两部分。“规模以上工业企业”,1998-2006年,是指全部国有和年主营业务收入500万元及以上的非国有工业法人单位;2007-2010年,统计范围调整为年主营业务收入500万元及以上的工业法人单位;2011年开始至今,统计范围为年主营业务 阅读全文
posted @ 2023-05-16 10:35 stardsd 阅读(407) 评论(0) 推荐(0) 编辑
摘要:随着研究和行业转向能够执行大量下游任务的大规模模型,理解赋予模型细微差别的多模态数据集的复杂性迅速增加。对数据集的起源、发展、意图、伦理考虑和演变的清晰和透彻的理解成为负责任和知情部署模型的必要步骤,尤其是那些在面向人的环境和高风险领域中的模型。然而,这种理解的负担往往落在文档的可理解性、简洁性和全 阅读全文
posted @ 2023-04-21 15:31 stardsd 阅读(296) 评论(0) 推荐(0) 编辑
摘要:2023 年 4 月 19 日,星期三 高级研究员 Lauren Wilcox 代表技术、人工智能、社会和文化团队发布 Google 将AI 视为一项基础和变革性技术,最近在生成 AI 技术方面取得了进展,例如LaMDA、PaLM、Imagen、Parti、MusicLM和类似的机器学习 (ML) 阅读全文
posted @ 2023-04-21 15:03 stardsd 阅读(178) 评论(0) 推荐(0) 编辑
摘要:由于最近在做主数据方面的项目,就去各论坛了解了一下有关主数据的姿势。这次来记录一下元数据和数据元的区别。 数据元(Data element):又称数据类型,通过定义、标识、表示以及允许值等一系列属性描述的数据单元。在特定的语义环境中被认为是不可再分的最小数据单元。 这个照我的理解啊,应该就是字段了。 阅读全文
posted @ 2020-07-08 15:49 stardsd 阅读(5007) 评论(0) 推荐(0) 编辑
摘要:查全率查准率是从信息检索来的,那么我们就得先看看原来的是怎么定义的: 查全率查准率是从信息检索来的,那么我们就得先看看原来的是怎么定义的: 查全率查准率是从信息检索来的,那么我们就得先看看原来的是怎么定义的: 查全率查准率是从信息检索来的,那么我们就得先看看原来的是怎么定义的: 查全率——它是指检出 阅读全文
posted @ 2019-04-24 16:32 stardsd 阅读(3427) 评论(0) 推荐(0) 编辑
摘要:在网络理论中,小世界网络是一类特殊的复杂网络结构,在这种网络中大部分的节点彼此并不相连,但绝大部分节点之间经过少数几步就可到达。 在日常生活中,有时你会发现,某些你觉得与你隔得很“遥远”的人,其实与你“很近”。小世界网络就是对这种现象(也称为小世界现象)的数学描述。用数学中图论的语言来说,小世界网络 阅读全文
posted @ 2019-04-08 16:09 stardsd 阅读(14051) 评论(0) 推荐(0) 编辑
摘要:表型(英语:Phenotype),又称表现型,对于一个生物而言,表示它某一特定的物理外观或成分。一个人是否有耳珠、植物的高度、人的血型、蛾的颜色等等,都是表型的例子。 表型主要受生物的基因型和环境影响,表型可分为连续变异或不连续变异的。前者较易受环境因素影响,基因型上则会受多个等位基因影响,如体重、 阅读全文
posted @ 2019-04-04 14:39 stardsd 阅读(5566) 评论(0) 推荐(0) 编辑
摘要:1. SimHash与传统hash函数的区别 传统的Hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上仅相当于伪随机数产生算法。传统的hash算法产生的两个签名,如果原始内容在一定概率下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字节, 阅读全文
posted @ 2018-12-08 16:08 stardsd 阅读(15671) 评论(0) 推荐(0) 编辑
摘要:1 介 绍 1.1 流式计算介绍 流式大数据计算主要有以下特征: 1)实时性。流式大数据不仅是实时产生的,也是要求实时给出反馈结果。系统要有快速响应能力,在短时间内体现出数据的价值,超过有效时间后数据的价值就会迅速降低。 2)突发性。数据的流入速率和顺序并不确定,甚至会有较大的差异。这要求系统要有较 阅读全文
posted @ 2018-12-08 15:56 stardsd 阅读(2170) 评论(0) 推荐(0) 编辑
摘要:1 指数平滑法 移动平均模型在解决时间序列问题上简单有效,但它们的计算比较难,因为不能通过之前的计算结果推算出加权移动平均值。此外,移动平均法不能很好的处理数据集边缘的数据变化,也不能应用于现有数据集的范围之外。因此,移动平均法的预测效果相对较差。 指数平滑法(exponential smoothi 阅读全文
posted @ 2018-12-08 15:39 stardsd 阅读(3648) 评论(0) 推荐(0) 编辑
摘要:Analysis of variance (ANOVA) is a collection of statistical models and their associated estimation procedures (such as the "variation" among and betwe 阅读全文
posted @ 2018-11-29 20:54 stardsd 阅读(9719) 评论(0) 推荐(1) 编辑
摘要:从物理的角度,要理解这几个概念的区别,需要对原子核的磁化有所了解,本文通过一些图示对这几个概念进行简明的介绍。 从物理的角度,要理解这几个概念的区别,需要对原子核的磁化有所了解,本文通过一些图示对这几个概念进行简明的介绍。 从物理的角度,要理解这几个概念的区别,需要对原子核的磁化有所了解,本文通过一 阅读全文
posted @ 2018-11-28 22:03 stardsd 阅读(18165) 评论(0) 推荐(0) 编辑
摘要:https://www.cnblogs.com/pinard/p/9220199.html 在机器学习用于产品的时候,我们经常会遇到跨平台的问题。比如我们用Python基于一系列的机器学习库训练了一个模型,但是有时候其他的产品和项目想把这个模型集成进去,但是这些产品很多只支持某些特定的生产环境比如J 阅读全文
posted @ 2018-10-30 15:46 stardsd 阅读(5048) 评论(0) 推荐(0) 编辑
摘要:支持连续变量和类别变量,类别变量就是某个属性有三个值,a,b,c,需要用Feature Transformers中的vectorindexer处理 上来是一堆参数 setMaxDepth:最大树深度 setMaxBins:最大装箱数,为了近似统计变量,比如变量有100个值,我只分成10段去做统计 s 阅读全文
posted @ 2018-10-30 15:27 stardsd 阅读(1374) 评论(0) 推荐(0) 编辑
摘要:修改元数据 概述 “修改元数据”节点用于显示检测到的元数据或者输入的元数据信息,为后续的模型训练和应用做必要的准备。 用户可以修改本节点的测量尺度(包括测量尺度、值)和角色,修改后的测量尺度和角色会被检测是否满足一致性要求。 当测量尺度修改完成后,会根据类型来进行一致性检查。 当角色修改完成后,会根 阅读全文
posted @ 2018-10-30 15:13 stardsd 阅读(748) 评论(0) 推荐(0) 编辑
摘要:https://zhuanlan.zhihu.com/p/43543442 PowerView是Excel中的Power系列插件之一,可以基于excel制作交互式仪表板。 初学者在使用Power View中经常会遇到一些问题,今天我们总结大家最常遇到的前3个问题: Top1 如何加载出Power V 阅读全文
posted @ 2018-10-18 23:33 stardsd 阅读(24338) 评论(0) 推荐(1) 编辑
摘要:弹性计算性能弹性计费模式就是 "即用即付 ",最小单位可以按小时来计算。随着云计算负载的增长,企业购买服务器带宽时的资源。 1、弹性计算性能 弹性计费模式就是"即用即付",最小单位可以按小时来计算。随着云计算负载的增长,企业购买服务器带宽时的资源浪费或者资源不足都会对企业造成不利影响。资源浪费会使企 阅读全文
posted @ 2018-09-27 20:38 stardsd 阅读(2185) 评论(0) 推荐(0) 编辑
摘要:什么是MECE分析法? MECE,是Mutually Exclusive Collectively Exhaustive,中文意思是“相互独立,完全穷尽”。 也就是对于一个重大的议题,能够做到不重叠、不遗漏的分类,而且能够藉此有效把握问题的核心,并解决问题的方法。 它是麦肯锡的第一个女咨询顾问巴巴拉 阅读全文
posted @ 2018-08-12 15:25 stardsd 阅读(3781) 评论(0) 推荐(0) 编辑
摘要:什么是帕累托分布 帕累托分布是以意大利经济学家维弗雷多·帕雷托命名的。 是从大量真实世界的现象中发现的幂次定律分布。这个分布在经济学以外,也被称为布拉德福分布。 帕累托因对意大利20%的人口拥有80%的财产的观察而著名,后来被约瑟夫·朱兰和其他人概括为帕累托法则(80/20法则),后来进一步概括为帕 阅读全文
posted @ 2018-07-10 20:53 stardsd 阅读(12788) 评论(0) 推荐(0) 编辑
摘要:核函数是一个相似度函数 SVM模型有两个非常重要的参数C与gamma。其中 C是惩罚系数,即对误差的宽容度。c越高,说明越不能容忍出现误差,容易过拟合。C越小,容易欠拟合。C过大或过小,泛化能力变差 gamma是选择RBF函数作为kernel后,该函数自带的一个参数。隐含地决定了数据映射到新的特征空 阅读全文
posted @ 2018-06-28 19:21 stardsd 阅读(3063) 评论(0) 推荐(0) 编辑