2017 年 11月随笔档案 - csguo

hive中partition如何使用

摘要：网上有篇关于hive的partition的使用讲解的比较好，转载了：一、背景 1、在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。 2、分区表指的是在创建表时指定的partition的分阅读全文

posted @ 2017-11-23 15:47 csguo 阅读(26094) 评论(0) 推荐(0) 编辑

Idea 编写 Spark 示例代码并打包成Jar

摘要：说明：本人是在Linux下搭建的单机Spark环境，也是在Linux下使用Idea14.02进行代码编辑 1. 打开IDEA，在欢迎界面从右下角的Configure -> Plugins进入，安装Scala插件 2.从左下角的Install JetBrains plugin进入，再在搜索输入框中输入阅读全文

posted @ 2017-11-21 14:42 csguo 阅读(5116) 评论(0) 推荐(0) 编辑

汉化教程-工具

摘要：现在随处都可以找到功能强大的汉化工具，操作简单，上手快，汉化不再是件麻烦事。想学汉化的朋友只要你用心，你也可以自己汉出优秀的作品，因为汉化根本没啥技术含量，要的只是持之恒。不要再羡慕别人会汉软件有多么多么牛X了，只要你有些不差的英语功底，有着热爱汉化、分享资源的热情，你也能成为“汉化达人”，一切皆阅读全文

posted @ 2017-11-13 17:34 csguo 阅读(15288) 评论(3) 推荐(2) 编辑

解析Resources.arsc

摘要：一、前言对于APK里面的Resources.arsc文件大家应该都知道是干什么的（不知道的请看我的另一篇文章Android应用程序资源文件的编译和打包原理），它实际上就是App的资源索引表。下面我会结合实例对它的格式做一下剖析，读完这篇文章应该能够知道Resources.arsc的格式，并可以从二阅读全文

posted @ 2017-11-13 17:31 csguo 阅读(2171) 评论(0) 推荐(0) 编辑

数据挖掘十大算法之决策树详解（2）

摘要：在2006年12月召开的 IEEE 数据挖掘国际会议上（ICDM， International Conference on Data Mining），与会的各位专家选出了当时的十大数据挖掘算法（ top 10 data mining algorithms ），可以参见文献【1】。本博客已经介绍过的位阅读全文

posted @ 2017-11-10 15:18 csguo 阅读(2530) 评论(0) 推荐(0) 编辑

数据挖掘十大算法之决策树详解（1）

摘要：在2006年12月召开的 IEEE 数据挖掘国际会议上（ICDM， International Conference on Data Mining），与会的各位专家选出了当时的十大数据挖掘算法（ top 10 data mining algorithms ），可以参见文献【1】。本博客已经介绍过的位阅读全文

posted @ 2017-11-10 15:17 csguo 阅读(25955) 评论(0) 推荐(3) 编辑

线性回归浅谈（Linear Regression）

摘要：在现实生活中普遍存在着变量之间的关系，有确定的和非确定的。确定关系指的是变量之间可以使用函数关系式表示，还有一种是属于非确定的（相关），比如人的身高和体重，一样的身高体重是不一样的。线性回归： 1：函数模型（Model）：假设有训练数据那么为了方便我们写成矩阵的形式 2：损失函数（cost 阅读全文

posted @ 2017-11-09 09:18 csguo 阅读(1996) 评论(0) 推荐(0) 编辑

贝叶斯推断及其互联网应用（三）：拼写检查

摘要：贝叶斯推断及其互联网应用（三）：拼写检查作者：阮一峰日期： 2012年10月16日作者：阮一峰日期： 2012年10月16日（这个系列的第一部分介绍了贝叶斯定理，第二部分介绍了如何过滤垃圾邮件，今天是第三部分。）使用Google的时候，如果你拼错一个单词，它会提醒你正确的拼法。比如阅读全文

posted @ 2017-11-08 16:22 csguo 阅读(878) 评论(0) 推荐(0) 编辑

贝叶斯推断及其互联网应用（二）：过滤垃圾邮件

摘要：有关贝叶斯原理的讲解，请查看这里。这里讲述的是通过贝叶斯推断如何过滤垃圾邮件。贝叶斯推断及其互联网应用（接上文）七、什么是贝叶斯过滤器？垃圾邮件是一种令人头痛的顽症，困扰着所有的互联网用户。正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法，主要有“关键词法”和“校验码法”等。前者的过阅读全文

posted @ 2017-11-08 16:20 csguo 阅读(5216) 评论(0) 推荐(0) 编辑

贝叶斯推断及其互联网应用（一）

摘要：一年前的这个时候，我正在翻译Paul Graham的《黑客与画家》。那本书大部分谈的是技术哲学，但是第八章却写了一个非常具体的技术问题如何使用贝叶斯推断过滤垃圾邮件（英文版）？说实话，我没完全看懂那一章。那时，交稿截止日期已经过了，没时间留给我去啃概率论教科书了。我只好硬着头皮，按照字面意思把阅读全文

posted @ 2017-11-08 16:08 csguo 阅读(1382) 评论(0) 推荐(0) 编辑

[数据挖掘]朴素贝叶斯分类

摘要：写在前面的话：我现在大四，毕业设计是做一个基于大数据的用户画像研究分析。所以开始学习数据挖掘的相关技术。这是我学习的一个新技术领域，学习难度比我以往学过的所有技术都难。虽然现在在一家公司实习，但是工作还是挺忙的，经常要加班，无论工作多忙,还是决定要写一个专栏,这个专栏就写一些数据挖掘算法、数据结构阅读全文

posted @ 2017-11-08 15:39 csguo 阅读(19806) 评论(0) 推荐(3) 编辑

Spark(1.6.1) Sql 编程指南+实战案例分析

摘要：首先看看从官网学习后总结的一个思维导图概述(Overview) Spark SQL是Spark的一个模块，用于结构化数据处理。它提供了一个编程的抽象被称为DataFrames，也可以作为分布式SQL查询引擎。开始Spark SQL Spark SQL中所有功能的入口点是SQLContext类，或阅读全文

posted @ 2017-11-08 14:23 csguo 阅读(2326) 评论(0) 推荐(0) 编辑

Spark 算子

摘要：RDD算子分类，大致可以分为两类，即： Transformation：转换算子，这类转换并不触发提交作业，完成作业中间过程处理。 Action：行动算子，这类算子会触发SparkContext提交Job作业。一：Transformation：转换算子 1.map map是对RDD中的每个元素都执行阅读全文

posted @ 2017-11-08 13:43 csguo 阅读(1066) 评论(0) 推荐(0) 编辑

Spark程序本地运行

摘要：Spark程序本地运行本次安装是在JDK安装完成的基础上进行的！ SPARK版本和hadoop版本必须对应！！！ spark是基于hadoop运算的，两者有依赖关系，见下图：前言： 1.环境变量配置： 1.1 打开“控制面板”选项 1.2.找到“系统”选项卡 1.3.点击“高级系统设置” 1.4 阅读全文

posted @ 2017-11-07 18:31 csguo 阅读(6197) 评论(0) 推荐(0) 编辑

IntelliJ IDEA 教程

摘要：写这篇文章的初衷很简单，就是想再一次证明 IntelliJ IDEA 对于 Java 开发人员来说，确实比 eclipse 要好用得多，鉴于目前市面上关于 IntelliJ IDEA 的教程比较少，叙述清楚的也不多，所以希望我的整理工作能够帮助各位从 eclipse 中尽快摆脱出来。我用过 ecl 阅读全文

posted @ 2017-11-07 16:55 csguo 阅读(1529) 评论(0) 推荐(0) 编辑