Data-BigData - 随笔分类(第3页) - 郝壹贰叁

[Hadoop] HBase

摘要：BHase基本知识基本概念自我介绍 HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。 HBase在Hadoop之上提供了类似于Bigtable的能力。 HBase不同于一般的关系数据库，阅读全文

posted @ 2019-09-02 11:10 郝壹贰叁阅读(273) 评论(0) 推荐(0) 编辑

[ML] Pyspark ML tutorial for beginners

摘要：Ref: Spark与Python结合：PySpark初学者指南 Ref: Predicting House Prices with Apache Spark 尽管Scala拥有SparkMLlib，但它没有足够的库和工具来实现机器学习和NLP目的。此外，Scala缺乏数据可视化。一、热身例子阅读全文

posted @ 2019-09-01 16:22 郝壹贰叁阅读(319) 评论(0) 推荐(0) 编辑

[ML] Pipeline in Distributed ML Library

摘要：入门知识 PySpark MLlib 一、基本介绍这里是MLlib，但目前推荐使用ml库直接针对DataFrame，这里使用老库，主要是为了“了解”。 PySpark简介 PySpark环境设置 PySpark SparkContext PySpark RDD PySpark广播与累积器 PySp 阅读全文

posted @ 2019-08-31 08:56 郝壹贰叁阅读(310) 评论(0) 推荐(0) 编辑

[AWS] 02 - Pipeline on EMR

摘要：Data Analysis with EMR. Video demo: Run Spark Application(Scala) on Amazon EMR (Elastic MapReduce) cluster【EMR 5.3.1】一个实战为王的年代，嘿嘿嘿~ 数据分析的一般过程步骤 1：设置阅读全文

posted @ 2019-08-30 09:31 郝壹贰叁阅读(283) 评论(0) 推荐(0) 编辑

[AWS] 01 - What is Amazon EMR

摘要：[DE] ML on Big data: MLlib 关于 Amazon EMR 发布版本利用 Amazon EMR 分析大数据 Amazon Athena 是一种交互式查询服务，让您能够轻松使用标准 SQL 直接分析 Amazon S3 中的数据。 EMR 解决Hadoop集群部署和管理的难题；阅读全文

posted @ 2019-08-29 18:03 郝壹贰叁阅读(221) 评论(0) 推荐(0) 编辑

[Spark] 02 - Practice PySpark

摘要：RDD编程基础 PySpark 启动一、PySpark 资源导航 Ref: Spark与Python结合：PySpark初学者指南 Ref: Spark 编程指南简体中文版 PySpark简介 PySpark环境设置 PySpark SparkContext PySpark RDD PySpark 阅读全文

posted @ 2019-08-28 18:27 郝壹贰叁阅读(375) 评论(0) 推荐(0) 编辑

[Spark] 01 - What is Spark

摘要：大数据云计算概念一、课程资源厦大课程：Spark编程基础(Python版) 优秀博文：Spark源码分析系列（目录）二、大数据特点大数据4V特性 Volumn, Variety, Velocity, Value。思维方式通过数据发现问题，再解决问题。全样分析，精确度的要求降低。三、阅读全文

posted @ 2019-08-28 12:00 郝壹贰叁阅读(260) 评论(0) 推荐(0) 编辑

[Feature] Feature engineering

摘要：复习旧知识： [Pandas] 03 - DataFrame【读入并处理表格】初步瞧：列属性的大概样子属性间：apply新添加一列属性内：窗口数据 [Scikit-learn] 4.3 Preprocessing data【基础夯实】单个特征：去量纲（若干方法）、规范化特殊情况：数据量不大阅读全文

posted @ 2019-08-27 22:30 郝壹贰叁阅读(196) 评论(0) 推荐(0) 编辑

[Feature] Preprocessing tutorial

摘要：伟哥的笔记，要认真的学习。主要是L1-L3的内容，先简单的复习下前面的内容，然后重点研究L3-Preprocessing的代码。 Ref: https://github.com/DBWangGroupUNSW/COMP9318/blob/master/L3%20-%20Preprocessing.i 阅读全文

posted @ 2019-08-27 17:42 郝壹贰叁阅读(207) 评论(0) 推荐(0) 编辑

[Pandas] 04 - Efficient I/O

摘要：SQLITE3接口 to Arrary ——从数据库加载数据到dataframe/numpy中。调动 SQLITE3数据库 commit 命令 COMMIT 命令是用于把事务调用的更改保存到数据库中的事务命令。 COMMIT 命令把自上次 COMMIT 或 ROLLBACK 命令以来的所有事务保存阅读全文

posted @ 2019-08-27 17:41 郝壹贰叁阅读(191) 评论(0) 推荐(0) 编辑

[Pandas] 03 - DataFrame

摘要：DataFrame Based on NumPy Ref: Pandas and NumPy arrays explained Ref: pandas: powerful Python data analysis toolkit【开发者文档】 dataframe 转化成 array array 转化阅读全文

posted @ 2019-08-27 08:35 郝壹贰叁阅读(573) 评论(0) 推荐(0) 编辑

[Pandas] 02 - Tutorial on NumPy

摘要：常见考点相关参考：NumPy 教程以下取自于：[Python] 01 - Number and Matrix 一、矩阵 (Matrix) 初始化统计量 [Pandas] 01 - A guy based on NumPy Basic Vectorization 向量化当存在nan元素时，失效阅读全文

posted @ 2019-08-25 14:38 郝壹贰叁阅读(212) 评论(0) 推荐(0) 编辑

[Pandas] 01 - A guy based on NumPy

摘要：主要搞明白NumPy “为什么快”？一、学习资源 Panda 中文易百教程远程登录Jupyter笔记本 "第六章、矩阵和矢量计算" from《Python高性能编程》系统级性能分析工具perf的介绍与使用二、效率进化 NumPy 底层进行了不错的优化。 In [11]: loops = 2 阅读全文

posted @ 2019-08-21 21:50 郝壹贰叁阅读(334) 评论(0) 推荐(0) 编辑

[Spark] 00 - Install Hadoop & Spark

摘要：Hadoop安装环境配置 - Single Node Cluster 一、JDK配置 Ref: How to install hadoop 2.7.3 single node cluster on ubuntu 16.04 Ubuntu 18 + Hadoop 2.7.3 + Java 8 版本若阅读全文

posted @ 2018-06-01 16:04 郝壹贰叁阅读(316) 评论(0) 推荐(0) 编辑

[CDH] Cloudera's Distribution including Apache Hadoop

摘要：You may choose to install spark, yarn, hive, etc one by one. [Spark] 00 - Install Hadoop & Spark But here, we will introduce how to install and config 阅读全文

posted @ 2018-05-27 19:55 郝壹贰叁阅读(477) 评论(0) 推荐(0) 编辑

[DE] ML on Big data: MLlib

摘要：Pipeline的最终目的就是学会Spark MLlib，这里先瞧瞧做到心里有数：知道之后要学什么，怎么学。首要问题一、哪些机器学习算法可以并行实现？四类算法：分类、回归、聚类、协同过滤以及特征提取、降维、数据流管理功能。后者可以与Spark SQL完美结合，支持的算法如下：二、何为机器阅读全文

posted @ 2018-02-26 20:12 郝壹贰叁阅读(304) 评论(0) 推荐(0) 编辑

[DE] Pipeline for Data Engineering

摘要：How to build an ML pipeline for Data Science 垃圾信息分类 Ref:Develop a NLP Model in Python & Deploy It with Flask, Step by Step 其中使用naive bayes模型做分类，此文不做表阅读全文

posted @ 2018-02-18 08:21 郝壹贰叁阅读(334) 评论(0) 推荐(0) 编辑

[Java] Java programming - basic level

摘要：Android 与 Java 一，资源基础教学：lecture, video, lecturer: Matt Stoker Java教学：http://www.runoob.com/java/java-intro.html【菜鸟教程，非常适合复习】 Ref: JAVA 学到什么水平就可以转战 An 阅读全文

posted @ 2017-11-17 16:33 郝壹贰叁阅读(611) 评论(0) 推荐(0) 编辑

[Scala] Scala programming - basic level

摘要：环境配置 IDE: https://www.jetbrains.com/idea/ 子雨大数据之Spark入门教程（Scala版） /* implement */ 语言特性 Online compiler: https://scastie.scala-lang.org/ 只记录 “不太一样” 的特性阅读全文

posted @ 2017-10-02 06:18 郝壹贰叁阅读(193) 评论(0) 推荐(0) 编辑

[DE] How to learn Big Data

摘要：打开一瞧：50G的文件！ emptystacks jobstacks jobtickets stackrequests worker 大数据加数据分析，需要以python+scikit，sql作为基础，大数据框架作为载体。大数据的存放：S3 Browser 一、大数据存放 Please note 阅读全文

posted @ 2017-09-30 06:43 郝壹贰叁阅读(273) 评论(0) 推荐(0) 编辑

机器学习水很深

We all have two lives. The second one starts when we realize that we only have one. --- Tom Hiddleston

随笔分类 - Data-BigData

公告

积分与排名

随笔分类 (961)

Academic

Common

阅读排行榜

评论排行榜

最新评论