hive中partition如何使用
摘要:网上有篇关于hive的partition的使用讲解的比较好,转载了: 一、背景 1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。 2、分区表指的是在创建表时指定的partition的分
阅读全文
posted @
2017-11-23 15:47
csguo
阅读(26094)
推荐(0) 编辑
Idea 编写 Spark 示例代码并打包成Jar
摘要:说明:本人是在Linux下搭建的单机Spark环境,也是在Linux下使用Idea14.02进行代码编辑 1. 打开IDEA,在欢迎界面从右下角的Configure -> Plugins进入,安装Scala插件 2.从左下角的Install JetBrains plugin进入,再在搜索输入框中输入
阅读全文
posted @
2017-11-21 14:42
csguo
阅读(5116)
推荐(0) 编辑
汉化教程-工具
摘要:现在随处都可以找到功能强大的汉化工具,操作简单,上手快,汉化不再是件麻烦事。想学汉化的朋友只要你用心,你也可以自己汉出优秀的作品,因为汉化根本没啥技术含量,要的只是持之恒。 不要再羡慕别人会汉软件有多么多么牛X了,只要你有些不差的英语功底,有着热爱汉化、分享资源的热情,你也能成为“汉化达人”,一切皆
阅读全文
posted @
2017-11-13 17:34
csguo
阅读(15288)
推荐(2) 编辑
解析Resources.arsc
摘要:一、前言 对于APK里面的Resources.arsc文件大家应该都知道是干什么的(不知道的请看我的另一篇文章Android应用程序资源文件的编译和打包原理),它实际上就是App的资源索引表。下面我会结合实例对它的格式做一下剖析,读完这篇文章应该能够知道Resources.arsc的格式,并可以从二
阅读全文
posted @
2017-11-13 17:31
csguo
阅读(2171)
推荐(0) 编辑
数据挖掘十大算法之决策树详解(2)
摘要:在2006年12月召开的 IEEE 数据挖掘国际会议上(ICDM, International Conference on Data Mining),与会的各位专家选出了当时的十大数据挖掘算法( top 10 data mining algorithms ),可以参见文献【1】。本博客已经介绍过的位
阅读全文
posted @
2017-11-10 15:18
csguo
阅读(2530)
推荐(0) 编辑
数据挖掘十大算法之决策树详解(1)
摘要:在2006年12月召开的 IEEE 数据挖掘国际会议上(ICDM, International Conference on Data Mining),与会的各位专家选出了当时的十大数据挖掘算法( top 10 data mining algorithms ),可以参见文献【1】。本博客已经介绍过的位
阅读全文
posted @
2017-11-10 15:17
csguo
阅读(25955)
推荐(3) 编辑
线性回归浅谈(Linear Regression)
摘要:在现实生活中普遍存在着变量之间的关系,有确定的和非确定的。确定关系指的是变量之间可以使用函数关系式表示,还有一种是属于非确定的(相关),比如人的身高和体重,一样的身高体重是不一样的。 线性回归: 1: 函数模型(Model): 假设有训练数据 那么为了方便我们写成矩阵的形式 2: 损失函数(cost
阅读全文
posted @
2017-11-09 09:18
csguo
阅读(1996)
推荐(0) 编辑
贝叶斯推断及其互联网应用(三):拼写检查
摘要:贝叶斯推断及其互联网应用(三):拼写检查 作者: 阮一峰 日期: 2012年10月16日 作者: 阮一峰 日期: 2012年10月16日 (这个系列的第一部分介绍了贝叶斯定理,第二部分介绍了如何过滤垃圾邮件,今天是第三部分。) 使用Google的时候,如果你拼错一个单词,它会提醒你正确的拼法。 比如
阅读全文
posted @
2017-11-08 16:22
csguo
阅读(878)
推荐(0) 编辑
贝叶斯推断及其互联网应用(二):过滤垃圾邮件
摘要:有关贝叶斯原理的讲解, 请查看这里。这里讲述的是通过贝叶斯推断如何过滤垃圾邮件。贝叶斯推断及其互联网应用 (接上文)七、什么是贝叶斯过滤器? 垃圾邮件是一种令人头痛的顽症,困扰着所有的互联网用户。 正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法,主要有“关键词法”和“校验码法”等。前者的过
阅读全文
posted @
2017-11-08 16:20
csguo
阅读(5216)
推荐(0) 编辑
贝叶斯推断及其互联网应用(一)
摘要:一年前的这个时候,我正在翻译Paul Graham的《黑客与画家》。 那本书大部分谈的是技术哲学,但是第八章却写了一个非常具体的技术问题 如何使用贝叶斯推断过滤垃圾邮件(英文版)? 说实话,我没完全看懂那一章。那时,交稿截止日期已经过了,没时间留给我去啃概率论教科书了。我只好硬着头皮,按照字面意思把
阅读全文
posted @
2017-11-08 16:08
csguo
阅读(1382)
推荐(0) 编辑
[数据挖掘]朴素贝叶斯分类
摘要:写在前面的话: 我现在大四,毕业设计是做一个基于大数据的用户画像研究分析。所以开始学习数据挖掘的相关技术。这是我学习的一个新技术领域,学习难度比我以往学过的所有技术都难。虽然现在在一家公司实习,但是工作还是挺忙的,经常要加班,无论工作多忙,还是决定要写一个专栏,这个专栏就写一些数据挖掘算法、数据结构
阅读全文
posted @
2017-11-08 15:39
csguo
阅读(19806)
推荐(3) 编辑
Spark(1.6.1) Sql 编程指南+实战案例分析
摘要:首先看看从官网学习后总结的一个思维导图 概述(Overview) Spark SQL是Spark的一个模块,用于结构化数据处理。它提供了一个编程的抽象被称为DataFrames,也可以作为分布式SQL查询引擎。 开始Spark SQL Spark SQL中所有功能的入口点是SQLContext类,或
阅读全文
posted @
2017-11-08 14:23
csguo
阅读(2326)
推荐(0) 编辑
Spark 算子
摘要:RDD算子分类,大致可以分为两类,即: Transformation:转换算子,这类转换并不触发提交作业,完成作业中间过程处理。 Action:行动算子,这类算子会触发SparkContext提交Job作业。 一:Transformation:转换算子 1.map map是对RDD中的每个元素都执行
阅读全文
posted @
2017-11-08 13:43
csguo
阅读(1066)
推荐(0) 编辑
Spark程序本地运行
摘要:Spark程序本地运行 本次安装是在JDK安装完成的基础上进行的! SPARK版本和hadoop版本必须对应!!! spark是基于hadoop运算的,两者有依赖关系,见下图: 前言: 1.环境变量配置: 1.1 打开“控制面板”选项 1.2.找到“系统”选项卡 1.3.点击“高级系统设置” 1.4
阅读全文
posted @
2017-11-07 18:31
csguo
阅读(6197)
推荐(0) 编辑
IntelliJ IDEA 教程
摘要:写这篇文章的初衷很简单,就是想再一次证明 IntelliJ IDEA 对于 Java 开发人员来说,确实比 eclipse 要好用得多,鉴于目前市面上关于 IntelliJ IDEA 的教程比较少,叙述清楚的也不多,所以希望我的整理工作能够帮助各位从 eclipse 中尽快摆脱出来。 我用过 ecl
阅读全文
posted @
2017-11-07 16:55
csguo
阅读(1529)
推荐(0) 编辑