摘要:
A complete ML Project Get data Create a Training/ Test Set If the training set is very large, you may want to sample an exploration set to make manipu 阅读全文
摘要:
[TOC] C1 Introduction to Statistical Learning 1.1Statistical Learning介绍: 1.Statistical learning a vast set of tools ( supervised or unsupervised ) for 阅读全文
摘要:
本文只展示核心代码,完整代码见文末链接。 Web Log Analysis 1. 提取需要的log信息,包括time, traffic, ip, web address 2. 进一步解析第一步获得的log信息,如把ip转换为对应的省份,从网址中提取出访问内容和内容ID,最后将信息转换为parquet 阅读全文
摘要:
下面代码按照之前参加Kaggle的python代码改写,只完成了模型的训练过程,还需要对test集的数据进行转换和对test集进行预测。 scala 2.11.12 spark 2.2.2 阅读全文
摘要:
Internel [TOC] 基础 网络通信协议 计算机网络中实现通信必须有一些约定即通信协议,对速率、传输代码、代码结构、传输控制步骤、出错控制等制定标准。 常用协议 TCP/IP协议 TCP传输控制协议:TCP协议是一种可靠的端对端协议,重发一切没有收到的数据,进行数据内容准确性检查并保证分组的 阅读全文
摘要:
Java virtual machine [TOC] 内存溢出: 拍照,设置程序初始化时内存栈大小,和程序最大的内存栈大小 Idea下载Memory Analyzer的插件来查看拍照得到的文件,看是哪个object占用的内存最多。 Java技术体系:Java程序设计语言, 个硬件平台上的Java虚拟 阅读全文
摘要:
[TOC] Part V. Streaming 版本以2.2的Structured Streaming为主,部分也有后续新版本的说明。 Stream Processing Fundamentals 1.概念 流处理就是不断地整合新数据计算新结果。批量处理是固定输入量计算一次。Structured S 阅读全文
摘要:
[TOC] Part VI. Advanced Analytics and Machine Learning Advanced Analytics and Machine Learning Overview 1.A Short Primer on Advanced Analytics 目的 :der 阅读全文
摘要:
[TOC] 基础 建立在Hadoop上的数据仓库(Hive的表就是HDFS的目录、数据就是HDFS的文件),定义了类似SQL的查询语言,通过它来读写和管理分布式存储的数据。它的底层执行引擎可以是MapReduce、Spark等(将SQL语句转化成M/R或者Spark语言)。 优点:简单SQL,常用于 阅读全文
摘要:
[TOC] UML类图及时序图 Unified Modeling Language,第三代建模和规约语言。用于说明、可视化、构建和编写一个正在开发的面相对象的、软件密集型系统的制品的开放方法。 类图 实箭继承,虚箭实现(可能有棒棒糖表示) 实现关联(成员变量中有其他类),虚线依赖(方法需要其他类作为 阅读全文
摘要:
[TOC] Part III. Low Level APIs 通常用Part II的APIs就够了,它通常“more efficient, more stable, and more expressive”,还能省内存。 需要底层APIs的情况: 高层无法满足,如准确控制数据的物理位置 维护一些RD 阅读全文
摘要:
[TOC] 本文代码主要基于Spark2.2,Scala 2.11,Python3 由于用Scala和Python编写的Spark application代码十分类似,所以本文只展示Scala代码,与Python不同的地方会说明。 Part I. Gentle Overview of Big Dat 阅读全文
摘要:
[TOC] 目的:减少数据冗余、避免数据维护异常、节约存储空间、高效访问 设计的步骤 ① 需求分析 ② 概念结构设计:E R图 ③ 逻辑结构设计:将E R图转换为某一种数据模型,并优化。 ④ 物理结构设计:选哪种数据库 ⑤ 数据库实施 ⑥ 数据库维护和优化:建表、索引优化、大表拆分 需求分析 1. 阅读全文
摘要:
[TOC] bin可执行文件,data数据,docs文档,include存头文件,share错误信息和字符集文件 配置文件:default character set=utf8,character set server=utf8 一些基础补充: mysql 提示符,可修改 select 可以接 ve 阅读全文
摘要:
[TOC] 基本框架 由于相当于静态类,object中定义的方法在使用时就是“类名.方法名” 数据类型(无引用类型) Byte, Char, Short, Int, Long, Float, Double, Boolean等 其他Unit, Null, Nothing, Any, AnyRef An 阅读全文
摘要:
[TOC] Chapter 13. Thinking functionally 13.1 实现和维护系统 有synchronized关键字的不要维护 容易使用的程序 Stream的无状态的行为(函数不会由于需要等待从另一个方法中读取变量,或者由于需要写入的变量同时有另一个方法正在写入,而发生中断)让 阅读全文
摘要:
[TOC] Chapter 8. Refactoring, testing, and debugging 8.1 为改善可读性和灵活性重构代码 1.从匿名类到 Lambda 表达式的转换 注意事项:在匿名类中, this代表的是类自身,但是在Lambda中,它代表的是包含类 匿名类可以屏蔽包含类的变 阅读全文
摘要:
[TOC] Chapter 4. Introducing streams 4.1 流是什么 1.声明性,可复合,可并行 集合可多次(不过其实第二次就相当于第二个迭代器了) 2.外部迭代与内部迭代 内部的好处:可以透明地并行处理,或者用更优化的顺序进行处理 4.3 流操作(类似Spark的transf 阅读全文
摘要:
Chapter 1. Java 8: why should you care? [TOC] 1.1 Java 怎么还在变 某些语言只是更适合某些方面。比如,C和C++仍然是构建操作系统和各种嵌入式系统的流行工具,因为它们编出的程序尽管安全性不佳,但运行时占用资源少。Java和C 等安全型语言在诸多运 阅读全文