摘要:
[TOC] Introduction to Stateful Stream Processing Traditional Data Infrastructures 企业的应用,如enterprise resource planning (ERP) systems, customer relation 阅读全文
摘要:
A complete ML Project Get data Create a Training/ Test Set If the training set is very large, you may want to sample an exploration set to make manipu 阅读全文
摘要:
[TOC] C1 Introduction to Statistical Learning 1.1Statistical Learning介绍: 1.Statistical learning a vast set of tools ( supervised or unsupervised ) for 阅读全文
摘要:
本文只展示核心代码,完整代码见文末链接。 Web Log Analysis 1. 提取需要的log信息,包括time, traffic, ip, web address 2. 进一步解析第一步获得的log信息,如把ip转换为对应的省份,从网址中提取出访问内容和内容ID,最后将信息转换为parquet 阅读全文
摘要:
下面代码按照之前参加Kaggle的python代码改写,只完成了模型的训练过程,还需要对test集的数据进行转换和对test集进行预测。 scala 2.11.12 spark 2.2.2 阅读全文
摘要:
Internel [TOC] 基础 网络通信协议 计算机网络中实现通信必须有一些约定即通信协议,对速率、传输代码、代码结构、传输控制步骤、出错控制等制定标准。 常用协议 TCP/IP协议 TCP传输控制协议:TCP协议是一种可靠的端对端协议,重发一切没有收到的数据,进行数据内容准确性检查并保证分组的 阅读全文
摘要:
Java virtual machine [TOC] 内存溢出: 拍照,设置程序初始化时内存栈大小,和程序最大的内存栈大小 Idea下载Memory Analyzer的插件来查看拍照得到的文件,看是哪个object占用的内存最多。 Java技术体系:Java程序设计语言, 个硬件平台上的Java虚拟 阅读全文
摘要:
[TOC] Part V. Streaming 版本以2.2的Structured Streaming为主,部分也有后续新版本的说明。 Stream Processing Fundamentals 1.概念 流处理就是不断地整合新数据计算新结果。批量处理是固定输入量计算一次。Structured S 阅读全文
摘要:
[TOC] Part VI. Advanced Analytics and Machine Learning Advanced Analytics and Machine Learning Overview 1.A Short Primer on Advanced Analytics 目的 :der 阅读全文
摘要:
[TOC] 基础 建立在Hadoop上的数据仓库(Hive的表就是HDFS的目录、数据就是HDFS的文件),定义了类似SQL的查询语言,通过它来读写和管理分布式存储的数据。它的底层执行引擎可以是MapReduce、Spark等(将SQL语句转化成M/R或者Spark语言)。 优点:简单SQL,常用于 阅读全文