随笔分类 - Data-BigData
Data Science
摘要:BHase基本知识 基本概念 自我介绍 HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。 HBase在Hadoop之上提供了类似于Bigtable的能力。 HBase不同于一般的关系数据库,
阅读全文
摘要:Ref: Spark与Python结合:PySpark初学者指南 Ref: Predicting House Prices with Apache Spark 尽管Scala拥有SparkMLlib,但它没有足够的库和工具来实现机器学习和NLP目的。 此外,Scala缺乏数据可视化。 一、热身例子
阅读全文
摘要:入门知识 PySpark MLlib 一、基本介绍 这里是MLlib,但目前推荐使用ml库直接针对DataFrame,这里使用老库,主要是为了“了解”。 PySpark简介 PySpark环境设置 PySpark SparkContext PySpark RDD PySpark广播与累积器 PySp
阅读全文
摘要:Data Analysis with EMR. Video demo: Run Spark Application(Scala) on Amazon EMR (Elastic MapReduce) cluster【EMR 5.3.1】 一个实战为王的年代,嘿嘿嘿~ 数据分析的一般过程 步骤 1:设置
阅读全文
摘要:[DE] ML on Big data: MLlib 关于 Amazon EMR 发布版本 利用 Amazon EMR 分析大数据 Amazon Athena 是一种交互式查询服务,让您能够轻松使用标准 SQL 直接分析 Amazon S3 中的数据。 EMR 解决Hadoop集群部署和管理的难题;
阅读全文
摘要:RDD编程基础 PySpark 启动 一、PySpark 资源导航 Ref: Spark与Python结合:PySpark初学者指南 Ref: Spark 编程指南简体中文版 PySpark简介 PySpark环境设置 PySpark SparkContext PySpark RDD PySpark
阅读全文
摘要:大数据 云计算概念 一、课程资源 厦大课程:Spark编程基础(Python版) 优秀博文:Spark源码分析系列(目录) 二、大数据特点 大数据4V特性 Volumn, Variety, Velocity, Value。 思维方式 通过数据发现问题,再解决问题。 全样分析,精确度的要求降低。 三、
阅读全文
摘要:复习旧知识: [Pandas] 03 - DataFrame【读入并处理表格】 初步瞧:列属性的大概样子 属性间:apply新添加一列 属性内:窗口数据 [Scikit-learn] 4.3 Preprocessing data【基础夯实】 单个特征:去量纲(若干方法)、规范化 特殊情况:数据量不大
阅读全文
摘要:伟哥的笔记,要认真的学习。主要是L1-L3的内容,先简单的复习下前面的内容,然后重点研究L3-Preprocessing的代码。 Ref: https://github.com/DBWangGroupUNSW/COMP9318/blob/master/L3%20-%20Preprocessing.i
阅读全文
摘要:SQLITE3接口 to Arrary ——从数据库加载数据到dataframe/numpy中。 调动 SQLITE3数据库 commit 命令 COMMIT 命令是用于把事务调用的更改保存到数据库中的事务命令。 COMMIT 命令把自上次 COMMIT 或 ROLLBACK 命令以来的所有事务保存
阅读全文
摘要:DataFrame Based on NumPy Ref: Pandas and NumPy arrays explained Ref: pandas: powerful Python data analysis toolkit【开发者文档】 dataframe 转化成 array array 转化
阅读全文
摘要:常见考点 相关参考:NumPy 教程 以下取自于:[Python] 01 - Number and Matrix 一、矩阵 (Matrix) 初始化 统计量 [Pandas] 01 - A guy based on NumPy Basic Vectorization 向量化 当存在nan元素时,失效
阅读全文
摘要:主要搞明白NumPy “为什么快”? 一、学习资源 Panda 中文 易百教程 远程登录Jupyter笔记本 "第六章、矩阵和矢量计算" from《Python高性能编程》 系统级性能分析工具perf的介绍与使用 二、效率进化 NumPy 底层进行了不错的优化。 In [11]: loops = 2
阅读全文
摘要:Hadoop安装 环境配置 - Single Node Cluster 一、JDK配置 Ref: How to install hadoop 2.7.3 single node cluster on ubuntu 16.04 Ubuntu 18 + Hadoop 2.7.3 + Java 8 版本若
阅读全文
摘要:You may choose to install spark, yarn, hive, etc one by one. [Spark] 00 - Install Hadoop & Spark But here, we will introduce how to install and config
阅读全文
摘要:Pipeline的最终目的就是学会Spark MLlib,这里先瞧瞧做到心里有数:知道之后要学什么,怎么学。 首要问题 一、哪些机器学习算法可以并行实现? 四类算法:分类、回归、聚类、协同过滤 以及特征提取、降维、数据流管理功能。 后者可以与Spark SQL完美结合,支持的算法如下: 二、何为机器
阅读全文
摘要:How to build an ML pipeline for Data Science 垃圾信息分类 Ref:Develop a NLP Model in Python & Deploy It with Flask, Step by Step 其中使用naive bayes模型 做分类,此文不做表
阅读全文
摘要:Android 与 Java 一,资源 基础教学:lecture, video, lecturer: Matt Stoker Java教学:http://www.runoob.com/java/java-intro.html【菜鸟教程,非常适合复习】 Ref: JAVA 学到什么水平就可以转战 An
阅读全文
摘要:环境配置 IDE: https://www.jetbrains.com/idea/ 子雨大数据之Spark入门教程(Scala版) /* implement */ 语言特性 Online compiler: https://scastie.scala-lang.org/ 只记录 “不太一样” 的特性
阅读全文
摘要:打开一瞧:50G的文件! emptystacks jobstacks jobtickets stackrequests worker 大数据加数据分析,需要以python+scikit,sql作为基础,大数据框架作为载体。 大数据的存放:S3 Browser 一、大数据存放 Please note
阅读全文