摘要: Ref: 一文读懂Socket通信原理 幽默讲解 Linux 的 Socket IO 模型 阅读全文
posted @ 2019-01-07 13:05 mashuai_191 阅读(179) 评论(0) 推荐(0) 编辑
摘要: Week 4 Big Data Precessing Pipeline 上图可以generalize 成下图,也就是Big data pipeline some high level processing operations in big data pipeline 在一个pipeline里 有哪 阅读全文
posted @ 2019-01-07 09:18 mashuai_191 阅读(279) 评论(0) 推荐(0) 编辑
摘要: 1. 排列和组合 排列有顺序,组合不考虑顺序,公式见下图 2.基本运算公式 (加法公式,条件概率公式,乘法公式) 加法公式 、 3. 全概率公式 4. 贝叶斯定理 others Ref: https://blog.csdn.net/zeo_m/article/details/80505404 htt 阅读全文
posted @ 2018-12-26 11:33 mashuai_191 阅读(293) 评论(0) 推荐(0) 编辑
摘要: This is the 3rd course in big data specification courses. Data model reivew 1, data model 的特点: Structured, operations on it, constrains. 2. different 阅读全文
posted @ 2018-12-23 17:21 mashuai_191 阅读(212) 评论(0) 推荐(0) 编辑
摘要: week4 streaming data format 下面讲 data lakes schema-on-read: 从数据源读取raw data 直接放到 data lake 里,然后再读到model里 schema-on-write: 传统模式,把raw data 经过处理后放到data war 阅读全文
posted @ 2018-12-18 15:38 mashuai_191 阅读(196) 评论(0) 推荐(0) 编辑
摘要: 最近在准备面试,mysql 实在是不熟悉,就先摘录一些网上的面试题来看一下. 1. MyISAM 和 InnoDB 区别? InnoDB 支持事务处理,支持更大的并发update 和 insert 操作; 支持行级锁 MyISAM 性能好,多用在执行大量select操作的场景; 不支持外键 ref: 阅读全文
posted @ 2018-12-12 16:48 mashuai_191 阅读(133) 评论(0) 推荐(0) 编辑
摘要: Introduction to data management 整个coures 2 是讲data management and storage 的,主要内容就是分布式文件系统,HDFS, Redis 等 What is data management? Introduction to data m 阅读全文
posted @ 2018-12-11 14:33 mashuai_191 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 什么是分布式文件系统?为什么需要分布式文件系统? 如果文件系统可以管理用网络连接的很多个存储单元,叫分布式文件系统. 分布式文件系统提供了数据可扩展性,容错性,高并发. 这些是传统文件系统不具有的. Hadoop getting started 为什么用Hadoop? Hadoop 的 4 个Wha 阅读全文
posted @ 2018-11-30 17:18 mashuai_191 阅读(184) 评论(0) 推荐(0) 编辑
摘要: 基本的regression算法有四种方法可以实现,分别是下面四种 还有更高级的算法可以用来做regression Decision Tree 阅读全文
posted @ 2018-11-27 22:54 mashuai_191 阅读(256) 评论(0) 推荐(0) 编辑
摘要: 同源策略 简单说就是,一个网页A设置的cookies不能被网页B用;还有一个网页A的JS也不能发送AJAX请求到另一个网页B. 但是同源策略也带来了很多不方便,所以就引出了CORS资源共享,这样JS就可以发AJAX请求到不同源的网页了. 浏览器同源政策及其规避方法 CORS CORS 需要browe 阅读全文
posted @ 2018-11-14 10:01 mashuai_191 阅读(130) 评论(0) 推荐(0) 编辑