随笔分类 -  数据挖掘

数据处理,数据挖掘,智能算法
摘要:Power BI:Any data,Any where,Any time。 在当前互联网,由于大数据研究热潮,以及数据挖掘,机器学习等技术的改进,各种数据可视化图表层出不穷,如何让大数据生动呈现,也成了一个具有挑战性的可能,随之也出现了大量的商业化软件。今天就给大家介绍一款逆天Power BI可视化工具。逆天的不仅仅是工具,还有其使用门槛和价格。微软早就基于Excel开发了相关BI插件,如Power Query,PowerPrivot,Power View和Power Map等。这些插件让Excel如同装上了装逼的翅膀,瞬间高大上。全新的Power BI呼之欲出,相比Tableau等产品,有着无可比拟的天然优势。 阅读全文
posted @ 2016-06-30 08:37 数据之巅 阅读(14059) 评论(13) 推荐(14) 编辑
摘要:Power BI:Any data,Any where,Any time。 在当前互联网,由于大数据研究热潮,以及数据挖掘,机器学习等技术的改进,各种数据可视化图表层出不穷,如何让大数据生动呈现,也成了一个具有挑战性的可能,随之也出现了大量的商业化软件。今天就给大家介绍一款逆天Power BI可视化工具。逆天的不仅仅是工具,还有其使用门槛和价格。微软早就基于Excel开发了相关BI插件,如Power Query,PowerPrivot,Power View和Power Map等。这些插件让Excel如同装上了装逼的翅膀,瞬间高大上。全新的Power BI呼之欲出,相比Tableau等产品,有着无可比拟的天然优势。 阅读全文
posted @ 2016-06-29 09:07 数据之巅 阅读(22815) 评论(17) 推荐(39) 编辑
摘要:Power BI:Any data,Any where,Any time。 在当前互联网,由于大数据研究热潮,以及数据挖掘,机器学习等技术的改进,各种数据可视化图表层出不穷,如何让大数据生动呈现,也成了一个具有挑战性的可能,随之也出现了大量的商业化软件。今天就给大家介绍一款逆天Power BI可视化工具。逆天的不仅仅是工具,还有其使用门槛和价格。微软早就基于Excel开发了相关BI插件,如Power Query,PowerPrivot,Power View和Power Map等。这些插件让Excel如同装上了装逼的翅膀,瞬间高大上。全新的Power BI呼之欲出,相比Tableau等产品,有着无可比拟的天然优势。 阅读全文
posted @ 2016-06-22 08:21 数据之巅 阅读(167695) 评论(39) 推荐(104) 编辑
摘要:下面是本博客原创的微软Power BI技术相关文章,对于部分转载文章和资源,会注明出处。Power BI Desktop的使用和在线版的相关使用文章,技术资源,学习经验等等。设计到power bi从数据源获取,到建模,以及分析,发布,共享协作等各个方面。 阅读全文
posted @ 2016-06-06 22:01 数据之巅 阅读(19343) 评论(8) 推荐(9) 编辑
摘要:RavenDB是针对Windows/.NET平台而设计的开源文档数据库。RavenDB的出现将.NET应用与非关系数据库连接到一起。数据以Shcema-less方式存储,并直接通过HTTP、RESTful API或更方便的.NET客户端API连接,.NET客户端API使用LINQ操作RavenDB数据库文档存储,所以你懂的,很舒服。RavenDB有.NET和JAVA版本,目前都在3.0。RavenDB具有非常高的可伸缩性。支持Multi-tenancy (多用户数据隔离),以及不同的同步类型,还可以根据需要支持分区分片等等。可以对RavenDB进行扩展,目前已有的插件如:触发器,编码器/解码器,任务调度,编译扩展,分析器,加密,压缩等等。 ACID事务支持,自动批处理,没有锁,客户端和服务器端连接保护等等。 阅读全文
posted @ 2016-05-11 08:17 数据之巅 阅读(7438) 评论(17) 推荐(61) 编辑
摘要:Infer.NET是一个概率图模型中(graphical models)用于运行贝叶斯推理机(Bayesian inference)的框架,本文将介绍一个基于Infer.NET构建贝叶斯机器分类器中数据映射和序列化相关的技术细节。 阅读全文
posted @ 2016-05-06 08:03 数据之巅 阅读(4478) 评论(14) 推荐(11) 编辑
摘要:本文对旅行商问题(TSP)的历史进行了简单的总结,以及相关算法进行了描述,重点介绍了Tsp优化问题的新算法——群蚁算法的原理和过程,详细对算法的理论和过程进行了解释和实例分析,并使用C#语言编写程序实现该算法。整篇论文是学习群蚂算法的基础性文章,同时也是了解TSP问题新动向,编程学习的一个好的例子。TSP问题在实际生活和工作中的出镜率非常高,说不定你就用得上,一起来看看吧。 阅读全文
posted @ 2015-09-14 08:24 数据之巅 阅读(22567) 评论(24) 推荐(78) 编辑
摘要:开放该数据库的目的是为了让可能需要该类型做相关研究准备,该数据库目前有390万记录,存储为Sqlite数据库,目前覆盖了全国34个省、直辖市、自治区以及特别行政区的所有县级市区。该数据库的历史天气时间范围是2011年1月至2015年8月底的数据,包括的天气数据有:天气情况,气温情况,风力情况。考虑每2-3个月更新一次。目前为一个总库,考虑到实际的城市等级,我对省份和城市进行了大概分级,具体研究分析的时候可以自己单独提取城市,单独处理。 阅读全文
posted @ 2015-09-06 08:06 数据之巅 阅读(8058) 评论(15) 推荐(29) 编辑
摘要:微软牛津计划(网址:https://cn.projectoxford.ai/#) 提供了一组基于Rest架构的API和SDK工具包,帮助开发者轻轻松松使用微软的自然数据理解能力为自己的解决方案增加智能服务。利用微软牛津计划构建你自己的解决方案,支持任意语言及任意开发平台。主要提供了4个自然语言处理方面的核心问题解决方案: 1)人脸识别:微软最先进的人脸算法,以云平台为基础,检测和识别图片中的人脸。为您的移动应用和桌面应用提供人脸算法的技术支持。 2)语音识别:Speech API为开发者提供最先进的语音处理算法。通过这些API,开发者可以轻松地为自己的应用添加语音操作功能。在一定条件下,这些API还可以实现与用户之间的实时交互。 3)计算机视觉:Computer Vision APIs为开发者提供最顶尖的图像处理算法。通过这些API你可以获得基于图像视觉内容的各种信息并生成理想的缩略 阅读全文
posted @ 2015-08-24 08:06 数据之巅 阅读(11408) 评论(54) 推荐(127) 编辑
摘要:Accord.NET为.NET应用程序提供了统计分析、机器学习、图像处理、计算机视觉相关的算法。Accord.NET框架扩展了AForge.NET框架,提供了一些新功能。同时为.NET环境下的科学计算提供了一个完整的开发环境。该框架被分成了多个程序集,可以直接从官网下载安装文件或者使用NuGet得到。Accord.NET框架主要有三个大的功能性模块。分别为科学技术,信号与图像处理,支持组件。下面将对3个模型的命名空间和功能进行简单介绍。可以让大家更快的接触和了解其功能是否是自己想要的,下面是主要的命名空间介绍。 阅读全文
posted @ 2015-08-17 08:31 数据之巅 阅读(21791) 评论(27) 推荐(59) 编辑
摘要:全国成百上千家互联网彩票公司,都有足球赛事资料库系统,但是他们不共享,都是自己采集,而有大量的业余研究人员,特别是程序员玩足球的,很多都要自己采集数据,多多少少造成了很多浪费,不仅仅是精力时间的浪费,更多的是网络资源,带宽的浪费。所以我开放这些数据的目的,基于以下几点:1.让喜欢足球的程序员,可以直接获取足球赛事资料数据,不用重复采集;2.开放基础数据库,让更多的人可以实现自己的思路和想法,专注业务,而不是这些没有技术含量的数据;3.采集数据,从某些角度上说,只要花时间,都可以做,我就是把自己花时间做的,分享出来,降低大家的门槛。4.我们不仅开源核心的数据库,同时也开放针对数据库的数据访问接口代码(C#版本),大家有数据库,也可以自己写相应代码,但前提是搞清楚数据库的结构,可以参考上面提到的系列文章。 阅读全文
posted @ 2015-07-20 07:57 数据之巅 阅读(10880) 评论(24) 推荐(33) 编辑
摘要:今天要关注就是核心的赔率指数表,由于赔率指数表的内容比较多,所以将分为2篇来进行。赔率指数是赛事预测的重要参考条件,虽然有一定的随机因素,但是根据长期的分析和统计,赔率还是具有很强的指导性。所以赔率指数数据库的设计也尤为重要。一方面要考虑到日益增长的赔率数据越来越多,需要确保查询分析的速度;另外一方面赔率的类型比较复杂,设计要比较合理,才能在后续的统计分析和预测模型中方便使用。 本篇文章是赔率指数表第二篇,因为指数类型比较多,今天要介绍的是几种大家可能接触比较少的,一般在国外用得比较多的,考虑到系统的完善性,而且也不复杂,所以都包括进来了。还是沿用上一篇文章的思路,赔率指数都是继承公共的基类,这里也只贴出不同的字段。 阅读全文
posted @ 2015-06-25 08:15 数据之巅 阅读(3733) 评论(0) 推荐(2) 编辑
摘要:最近偶尔发现一个算法编程学习的论坛,刚开始有点好奇,也只是注册了一下。最近有时间好好研究了一下,的确非常赞,所以推荐给大家。功能和介绍看下面介绍吧。首页的标题很给劲,很纯粹的Coding社区。。。。虽然目前人气可能一般,但这里面题目和资源还是比较丰富的,希望给初学者一个帮助。 论坛主要是进行算法学习和交流,需要进行注册才可以进入。论坛有大量的算法讨论问题,以及算法编程竞赛。最主要的是论坛还可以针对编程问题,可以在线提交代码,以及进行编译和时间计算。 阅读全文
posted @ 2015-06-22 07:34 数据之巅 阅读(15938) 评论(6) 推荐(11) 编辑
摘要:在上一篇文章:机器学习之PageRank算法应用与C#实现(1)算法介绍 中,对PageRank算法的原理和过程进行了详细的介绍,并通过一个很简单的例子对过程进行了讲解。从上一篇文章可以很快的了解PageRank的基础知识。相比其他一些文献的介绍,上一篇文章的介绍非常简洁明了。当然文章主要引用的是[1].上述引用“赵国,宋建成.Google搜索引擎的数学模型及其应用,西南民族大学学报自然科学版.2010,vol(36),3”这篇学术论文。鉴于文献中本身提供了一个案例,所以本文就使用文章的案例和思路,并使用C#进行编程实现,测试。论文中的案例其实是来源于1993年全国大学生数学建模竞赛的B题—足球队排名问题。 阅读全文
posted @ 2015-05-27 08:05 数据之巅 阅读(6134) 评论(1) 推荐(17) 编辑
摘要:今天要关注就是核心的赔率指数表,由于赔率指数表的内容比较多,所以将分为2篇来进行。赔率指数是赛事预测的重要参考条件,虽然有一定的随机因素,但是根据长期的分析和统计,赔率还是具有很强的指导性。所以赔率指数数据库的设计也尤为重要。一方面要考虑到日益增长的赔率数据越来越多,需要确保查询分析的速度;另外一方面赔率的类型比较复杂,设计要比较合理,才能在后续的统计分析和预测模型中方便使用。今天先介绍常规的赔率指数表的设计,主要是胜平负指数,大小盘,半全场,总进球,比分指数的数据库设计。 阅读全文
posted @ 2015-05-24 07:18 数据之巅 阅读(4495) 评论(6) 推荐(4) 编辑
摘要:由于数据表和业务是直接相关的,没有时间将所有相关业务都简述清楚,所以也只好将需求和表设计一起进行。相辅相成吧,如果思路有问题,大家可以交流提出自己的想法,当然必须要对足球赛事资料库有一定的了解和接触才行,本人也是走了很多弯路的。考虑到系统数据表很多,按照功能不同,分为基础数据表,比赛相关表,赔率相关表,以及特殊数据表4个部分分别进行讲解,请大家关注博客。今天要关注就是比赛信息相关的数据表设计。 阅读全文
posted @ 2015-05-23 07:01 数据之巅 阅读(3472) 评论(0) 推荐(1) 编辑
摘要:由于数据表和业务是直接相关的,没有时间将所有相关业务都简述清楚,所以也只好将需求和表设计一起进行。相辅相成吧,如果思路有问题,大家可以交流提出自己的想法,当然必须要对足球赛事资料库有一定的了解和接触才行,本人也是走了很多弯路的。考虑到系统数据表很多,按照功能不同,分为基础数据表,比赛相关表,赔率相关表,以及特殊数据表4个部分分别进行讲解,请大家关注博客。 阅读全文
posted @ 2015-05-21 08:04 数据之巅 阅读(3743) 评论(0) 推荐(4) 编辑
摘要:五一后的第一周,由于搬家腰扭伤了,没注意导致压迫神经,躺在床上休息了好几天。所以没事就挂 QQ,一个网友突然问了我一个算法问题。所以有了这篇文章。感触很深,所以特发此文,以纪念和写给新朋友,以及那些热爱编程的非专业人事。有时候思路决定出路。本人可能技术含量很低,但都很真实。虽然我只花了很少的时间,但解决了这个网友困惑了1年的问题,这个网友倒是特别感激,而我倒是感觉特别心塞。那大家喝杯茶,看看这个过程吧。 阅读全文
posted @ 2015-05-20 07:59 数据之巅 阅读(22819) 评论(225) 推荐(178) 编辑
摘要:考虑到足球赛事资料库的复杂性,以及考虑到项目的前瞻性(要考虑到很多还没有发生的事情,便于以后扩展),以及大量数据,查询和计算的速度,本项目经历了3次重构,到目前为止其实也不是很成型,但基本趋于稳定。现在总结起来肯定是很流畅,但这中间的过程非常痛苦,也希望把这些经验写出来,有自己做的朋友可以一起探讨,避免踩坑。数据库很庞大,且采用了XCode非常牛逼的分库技术,秒杀千万级乃至上亿的数据需求。而只需要最基本的C#技术,对我这种数据库文盲来说,真的帮助非常大。 阅读全文
posted @ 2015-05-19 08:04 数据之巅 阅读(4570) 评论(11) 推荐(20) 编辑
摘要:去年4月到现在,一年之中,做了很多事情,所以写博客的时间少了,在利用业余时间搭建的彩票数据库资料库快完工之际,将陆续在博客园开放这一年来的相关成果。一年来重点对数字彩和足球彩票资料库进行数据采集和分析平台的搭建,同时也利用数据挖掘和机器学习的简单知识,对足球比赛进行预测,也小有成果,虽然已经远离数字彩,但软件的结构非常容易扩展,数据也很容易采集。重点还是在足球赛事资料库,目前数据库已经包括了近10年,世界所有的联赛,杯赛和重要赛事的比赛信息,以及赔率盘口信息,对于玩算法和写代码的朋友来说,利用这些数据库可以快速的进行自己的数据分析工作。本系列文章会对数据库架构和结构进行介绍,并逐步开放相关足球数据库和彩票数据库,敬请关注。 阅读全文
posted @ 2015-05-13 09:10 数据之巅 阅读(7139) 评论(44) 推荐(32) 编辑