2020 年 5月随笔档案 - 大码王

考研计算机之操作系统

摘要：操作系统概述操作系统概念：操作系统是指控制和管理理整个计算机系统的硬件和软件资源，并合理理组织和调度计算机的⼯工作和资源分配，是最基本的系统软件。特征：并发、共享（两个最基本的特征）、虚拟、异步。并发：指同⼀一时间间隔内发⽣生，区别于并⾏行行。微观上分时地交替执⾏行行。功能：是计算机系统资阅读全文

posted @ 2020-05-31 16:28 大码王阅读(672) 评论(0) 推荐(0) 编辑

考研数学

摘要：第一章、高数内容（极限）考点类型 (1) (2) (3) (4) 极限函数极限:(ε-σ)f(x)=A 判断极限存在条件:①极限存在②任意子极限都相等数列极限:(ε-σ)=A 极限性质:①唯一性②有限性③保号性 1.证明极限存在的方法:单调有界原则 2.含参数极限求解用0/0型,洛必达和泰勒阅读全文

posted @ 2020-05-31 16:12 大码王阅读(649) 评论(0) 推荐(0) 编辑

python之（0）Python入门到实战

摘要：第一章计算机基础知识 1.1 课程介绍课程名称：Python 基础视频教程讲师：尚硅谷教育，李立超（lichao.li@foxmail.com）面向的层次：From Zero to Hero（从入门到精通）学习方法：认真听讲，多敲代码必备技能： ① 计算机基本操作 ② 打字的速度 ③ 英语（能阅阅读全文

posted @ 2020-05-31 15:00 大码王阅读(853) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（7）Spark优化总结

摘要：Spark 的监控方式 1、Spark Web UI Spark 内置应用运行监控工具（提供了应用运行层面的主要信息--重要）2、Ganglia 分析集群的使用状况和资源瓶颈（提供了集群的使用状况--资源瓶颈--重要）3、Nmon 主机 CPU、网络、磁盘、内存（提供了单机信息）4、Jmeter 系阅读全文

posted @ 2020-05-31 10:50 大码王阅读(315) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（6）spark优化从入门到实战

摘要：第1章 Spark 性能优化 1.1 调优基本原则 1.1.1 基本概念和原则首先，要搞清楚 Spark 的几个基本概念和原则，否则系统的性能调优无从谈起：每一台 host 上面可以并行 N 个 worker，每一个 worker 下面可以并行 M 个 executor，task 们会被分配到阅读全文

posted @ 2020-05-30 23:22 大码王阅读(663) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（1）spark基础入门

摘要：第1章 Spark 概述 1.1 什么是 Spark 官网：http://spark.apache.org Spark 的产生背景 Spark 是一种快速、通用、可扩展的大数据分析引擎，2009 年诞生于加州大学伯克利分校 AMPLab，2010 年开源，2013 年 6 月成为 Apache 孵化阅读全文

posted @ 2020-05-30 20:50 大码王阅读(777) 评论(0) 推荐(0) 编辑

hadoop入门到实战（18）优化技巧汇总_通用优化+Linux 优化+HDFS 优化+MapReduce 优化+HBase 优化+内存优化+JVM 优化+Zookeeper 优化

摘要：一、通用优化 1.1、NameNode 的元数据备份使用 SSD 1.2、定时备份 NameNode 上的元数据建议每小时或者每天备份，如果数据极其重要，可以5~10分钟备份一次。备份可以通过定时任务复制元数据目录即可。 1.3、为 NameNode 指定多个元数据目录使用 dfs.name.d 阅读全文

posted @ 2020-05-30 20:21 大码王阅读(246) 评论(0) 推荐(0) 编辑

hadoop入门到实战（17）Oozie从入门到实战

摘要：第1章 Oozie 的简介 Oozie 英文翻译为：驯象人。一个基于工作流引擎的开源框架，由 Cloudera 公司贡献给 Apache，提供对 Hadoop MapReduce、Pig Jobs 的任务调度与协调。Oozie 需要部署到 Java Servlet 容器中运行。主要用于定时调度任务，阅读全文

posted @ 2020-05-30 20:17 大码王阅读(440) 评论(0) 推荐(0) 编辑

hadoop入门到实战（16）azkaban从入门到实战

摘要：一概述 1.1 为什么需要工作流调度系统 1）一个完整的数据分析系统通常都是由大量任务单元组成： shell 脚本程序，java 程序，mapreduce 程序、hive 脚本等。2）各任务单元之间存在时间先后及前后依赖关系。3）为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行阅读全文

posted @ 2020-05-30 19:09 大码王阅读(353) 评论(0) 推荐(0) 编辑

hadoop入门到实战（15）Sqoop从入门到实战

摘要：第1章 Sqoop 简介 Sqoop 是一款开源的工具，主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,...) 间进行数据的高校传递，可以将一个关系型数据库（例如：MySQL,Oracle,Postgres等）中的数据导入到 Hadoop 的 HDFS 中阅读全文

posted @ 2020-05-30 19:07 大码王阅读(691) 评论(0) 推荐(0) 编辑

hadoop入门到实战（14）Kafka从入门到实战

摘要：第1章 Kafka概述 1.1 消息队列 1）点对点模式（一对一，消费者主动拉取数据，消息收到后消息清除）点对点模型通常是一个基于拉取或者轮询的消息传送模型，这种模型从队列中请求信息，而不是将消息推送到客户端。这个模型的特点是发送到队列的消息被一个且只有一个接收者接收处理，即使有多个消息监听者也是阅读全文

posted @ 2020-05-30 19:04 大码王阅读(895) 评论(0) 推荐(0) 编辑

hadoop入门到实战（13）Flume从入门到实战

摘要：第1章 Flume概述 1.1 Flume定义 Flume(水槽) 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。在2009年Flume被捐赠了apache软件基金会，为hadoop相关组件之一。尤其近几年随着flum 阅读全文

posted @ 2020-05-30 18:58 大码王阅读(1006) 评论(0) 推荐(0) 编辑

hadoop入门到实战（12）hive从入门到实战六

摘要：一、知识梳理 1.1、背景表结构在讲解中我们需要贯串一个例子，所以需要设计一个情景，对应还要有一个表结构和填充数据。如下：有 3 个字段，分别为 personId 标识某一个人，company 标识一家公司名称，money 标识该公司每年盈利收入（单位：万元人民币）建表并导入数据： create 阅读全文

posted @ 2020-05-30 18:50 大码王阅读(346) 评论(0) 推荐(0) 编辑

hadoop入门到实战（11）hive从入门到实战五

摘要：第10章 Hive实战之谷粒影音 10.1 需求描述统计硅谷影音视频网站的常规指标，各种TopN指标：统计视频观看数Top10 统计视频类别热度Top10 统计出视频观看数最高的20个视频的所属视频类别以及对应视频类别的个数统计视频观看数Top50所关联视频的所属类别Rank 统计每个类别中的阅读全文

posted @ 2020-05-30 18:46 大码王阅读(384) 评论(0) 推荐(0) 编辑

hadoop入门到实战（10）hive从入门到实战四

摘要：第8章压缩和存储（Hive高级） 8.1 Hadoop源码编译支持Snappy压缩 8.1.1 资源准备 1、CentOS联网配置CentOS能连接外网。Linux虚拟机 ping www.baidu.com 是畅通的。注意：采用root角色编译，减少文件夹权限出现问题。2、jar包准备(ha 阅读全文

posted @ 2020-05-30 18:44 大码王阅读(368) 评论(0) 推荐(0) 编辑

hadoop入门到实战（9）hive从入门到实战三

摘要：第6章查询 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select查询语句语法： [WITH CommonTableExpression (, CommonTableExpression)*] (Note: On 阅读全文

posted @ 2020-05-30 18:42 大码王阅读(505) 评论(0) 推荐(0) 编辑

hadoop入门到实战（8）hive从入门到实战二

摘要：第4章 DDL数据定义 4.1 创建数据库 1）创建一个数据库，数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。 hive (default)> create database db_hive; 2）避免要创建的数据库已经存在错误，增加 if not exist 阅读全文

posted @ 2020-05-30 18:39 大码王阅读(372) 评论(0) 推荐(0) 编辑

hadoop入门到实战（7）hive从入门到实战一

摘要：第1章 Hive入门 1.1 什么是Hive Hive：由Facebook开源用于解决海量结构化日志的数据统计（分析数据的框架）。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序。 1）Hive 阅读全文

posted @ 2020-05-30 18:37 大码王阅读(648) 评论(0) 推荐(0) 编辑

Spark源码系列（十一）spark源码解析总结

摘要：Spark 通信架构 1、spark 一开始使用 akka 作为网络通信框架，spark 2.X 版本以后完全抛弃 akka，而使用 netty 作为新的网络通信框架。最主要原因：spark 对 akka 没有维护，需要 akka 更新，spark 的发展受到了 akka 的牵制，akka 版本之间阅读全文

posted @ 2020-05-29 18:39 大码王阅读(2709) 评论(2) 推荐(0) 编辑

Spark源码系列（十）spark源码解析大全

摘要：第1章 Spark 整体概述 1.1 整体概念 Apache Spark 是一个开源的通用集群计算系统，它提供了 High-level 编程 API，支持 Scala、Java 和 Python 三种编程语言。Spark 内核使用 Scala 语言编写，通过基于 Scala 的函数式编程特性，在不同阅读全文

posted @ 2020-05-29 18:36 大码王阅读(16579) 评论(2) 推荐(7) 编辑

SparkGraphX之（2）企业运用

摘要：Spark GraphX 概述 1、Spark GraphX是什么？（1）Spark GraphX 是 Spark 的一个模块，主要用于进行以图为核心的计算还有分布式图的计算。（2）GraphX 他的底层计算也是 RDD 计算，它和 RDD 共用一种存储形态，在展示形态上可以以数据集来表示，也可阅读全文

posted @ 2020-05-29 18:31 大码王阅读(354) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(7)--Spark Streaming企业运用

摘要：Spark Streaming 是什么 1、SPark Streaming 是 Spark 中一个组件，基于 Spark Core 进行构建，用于对流式进行处理，类似于 Storm。2、Spark Streaming 能够和 Spark Core、Spark SQL 来进行混合编程。3、Spark 阅读全文

posted @ 2020-05-29 18:28 大码王阅读(391) 评论(0) 推荐(0) 编辑

Spark SQL入门到实战之（4）spark企业运用

摘要：Spark SQL 1、Spark SQL 是 Spark 的一个模块，可以和 RDD 进行混合编程、支持标准的数据源、可以集成和替代 Hive、可以提供 JDBC、ODBC 服务器功能。 2、Spark SQL 的特点：（1）和 Spark Core 的无缝集成，可以在写整个 RDD 应用的时候阅读全文

posted @ 2020-05-29 18:27 大码王阅读(472) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（5）sparkcore企业运用

摘要：1、RDD 全称弹性分布式数据集 Resilient Distributed Dataset它就是一个 class。 abstract class RDD[T: ClassTag]( @transient private var _sc: SparkContext, @transient priv 阅读全文

posted @ 2020-05-29 18:25 大码王阅读(354) 评论(0) 推荐(0) 编辑

SparkGraphX之（1）从入门到实战

摘要：第1章 Spark GraphX 概述 1.1 什么是 Spark GraphX Spark GraphX 是一个分布式图处理框架，它是基于 Spark 平台提供对图计算和图挖掘简洁易用的而丰富的接口，极大的方便了对分布式图处理的需求。那么什么是图，都计算些什么？众所周知社交网络中人与人之间有很多关阅读全文

posted @ 2020-05-29 18:14 大码王阅读(1085) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(6)--sparkstreaming入门到实战

摘要：第1章 Spark Streaming 概述 1.1 什么是 Spark Streaming Spark Streaming 类似于 Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming 有高吞吐量和容错能力强等特点。Spark Streaming 支持的阅读全文

posted @ 2020-05-29 18:11 大码王阅读(723) 评论(0) 推荐(0) 编辑

Spark SQL入门到实战之（3）sparkSql从入门到实战

摘要：第1章 Spark SQL 概述 1.1 什么是 Spark SQL Spark SQL：http://spark.apache.org/sql/ Spark SQL 是 Spark 用来处理结构化数据的一个模块，它提供了一个编程抽象叫做 DataFrame，并且作为分布式 SQL 查询引擎的作用。阅读全文

posted @ 2020-05-29 18:05 大码王阅读(1023) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（2）sparkcore入门到实战

摘要：第1章 RDD 概念 1.1 RDD 为什么会产生 RDD：Resilient Distributed Dataset 弹性分布式数据集 RDD 是 Spark 的基石，是实现 Spark 数据处理的核心抽象。那么 RDD 为什么会产生呢？ Hadoop 的 MapReduce 是一种基于数据集的工阅读全文

posted @ 2020-05-29 18:02 大码王阅读(727) 评论(0) 推荐(2) 编辑

spark机器学习从0到1之spark机器算法从入门到实战（十八）

摘要：第1章机器学习概述 1.1 机器学习是啥？机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。即通阅读全文

posted @ 2020-05-28 10:09 大码王阅读(1503) 评论(1) 推荐(0) 编辑

项目实战从 0 到 1 学习之Flink（9）flink实时数仓从入门到实战

摘要：第一章、flink实时数仓入门一、依赖 <!-- Licensed to the Apache Software Foundation (ASF) under one or more contributor license agreements. See the NOTICE file distr 阅读全文

posted @ 2020-05-28 00:53 大码王阅读(1938) 评论(0) 推荐(1) 编辑

项目实战从0到1之（1）数据仓库详解：包括概念、架构及设计

摘要：问题导读： 1.什么是数据仓库? 2.数据仓库的架构是怎样的？ 3.怎样设计数据仓库的模型？ 1、什么是数据仓库 1.1 数据仓库的概念官方定义数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合，用于对管理决策过程的支持。这个定义的确官方，但是却指出了数据仓库的四个特阅读全文

posted @ 2020-05-27 17:43 大码王阅读(1488) 评论(0) 推荐(1) 编辑

利用行为标签构建用户画像

摘要：问题导读：1、用户画像的核心工作是什么？2、开发用户画像流程有哪些？3、标签类别和标签内容有哪些？4、如何构建用户画像系统？用户画像将产品设计的焦点放在目标用户的动机和行为上，从而避免产品设计人员草率地代表用户。产品设计人员经常不自觉的把自己当作用户代表，根据自己的需求设计产品，导致无法抓住实际用户阅读全文

posted @ 2020-05-27 17:28 大码王阅读(3230) 评论(1) 推荐(0) 编辑

SSpark SQL入门到实战之（2）park SQL深度理解篇：模块实现、代码结构及执行流程总览

摘要：问题导读 1、如何理解SQL Core？ 2、RDD支持的第三方格式有哪些？ 3、SQLContext如何对sql执行解析？摘要本文作者整理了对Spark SQL各个模块的实现情况、代码结构、执行流程情况以及分享了对Spark SQL的理解，无论是从源码实现，还是从Spark SQL实际使用角度阅读全文

posted @ 2020-05-27 16:38 大码王阅读(521) 评论(0) 推荐(0) 编辑

Spark SQL入门到实战之（1）深度理解篇：模块实现、代码结构及执行流程总览

摘要：问题导读1、什么是Catalyst？2、对Hive的兼容支持将转移到什么上？3、TreeNode具备哪些对节点的操作方法？摘要：本文作者整理了对Spark SQL各个模块的实现情况、代码结构、执行流程情况以及分享了对Spark SQL的理解，无论是从源码实现，还是从Spark SQL实际使用角度，这阅读全文

posted @ 2020-05-27 16:26 大码王阅读(664) 评论(0) 推荐(0) 编辑

hadoop入门到实战（6）hive常用优化方法总结

摘要：问题导读：1、如何理解列裁剪和分区裁剪？2、sort by代替order by优势在哪里？3、如何调整group by配置？4、如何优化SQL处理join数据倾斜？Hive作为大数据领域常用的数据仓库组件，在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大，而是数据倾斜、数据冗阅读全文

posted @ 2020-05-27 16:17 大码王阅读(648) 评论(0) 推荐(0) 编辑

Spark源码系列（九）spark源码分析以及优化

摘要：第一章、spark源码分析之RDD四种依赖关系一、RDD四种依赖关系 RDD四种依赖关系，分别是 ShuffleDependency、PrunDependency、RangeDependency和OneToOneDependency四种依赖关系。如下图所示：org.apache.spark.Dep 阅读全文

posted @ 2020-05-27 15:44 大码王阅读(1335) 评论(0) 推荐(0) 编辑

Spark源码系列（八）Spark Streaming实例分析

摘要：问题导读1，如何保存接收到的数据？2，如何处理接收到的数据？3，调用get或Compute方法获得RDD的流程有什么？这一章要讲Spark Streaming，讲之前首先回顾下它的用法，具体用法请参照《Spark Streaming编程讲解》。 1、示例代码分析 val ssc = new Stre 阅读全文

posted @ 2020-05-27 15:31 大码王阅读(456) 评论(0) 推荐(0) 编辑

Spark源码系列（七）Spark on yarn具体实现

摘要：问题导读1、yarn提交作业的流程是怎样的？2、run方法在ApplicationMaster里面主要干了什么工作？3、把作业发布到yarn上面去执行，涉及到哪些类？本来不打算写的了，但是真的是闲来无事，整天看美剧也没啥意思。这一章打算讲一下Spark on yarn的实现，1.0.0里面已经是一个阅读全文

posted @ 2020-05-27 15:16 大码王阅读(808) 评论(0) 推荐(0) 编辑

Spark原始码系列（六）Shuffle的过程解析

摘要：问题导读： 1、shuffle过程的划分？ 2、shuffle的中间结果如何存储？ 3、shuffle的数据如何拉取过来？ Shuffle过程的划分 Spark的操作模型是基于RDD的，当调用RDD的reduceByKey、groupByKey等类似的操作的时候，就需要有shuffle了。再拿出re 阅读全文

posted @ 2020-05-27 14:51 大码王阅读(640) 评论(1) 推荐(0) 编辑

Spark原始码系列（五）分布式缓存

摘要：问题导读：spark缓存是如何实现的？BlockManager与BlockManagerMaster的关系是什么？这个persist方法是在RDD里面的，所以我们直接打开RDD这个类。 def persist(newLevel: StorageLevel): this.type = { // St 阅读全文

posted @ 2020-05-27 14:36 大码王阅读(636) 评论(1) 推荐(0) 编辑

Spark源码系列（四）图解作业生命周期

摘要：问题导读：1.描述作业生命周期？2.资源是如何调度的？这一章我们探索了Spark作业的运行过程，但是没把整个过程描绘出来，好，跟着我走吧，let you know！我们先回顾一下这个图，Driver Program是我们写的那个程序，它的核心是SparkContext，回想一下，从api的使用角阅读全文

posted @ 2020-05-27 14:25 大码王阅读(478) 评论(0) 推荐(0) 编辑

Spark源码系列（三）作业运行过程

摘要：问题导读：1.如何进行作业划分？2.TaskScheduler如何提交Task？ 1、作业执行上一章讲了RDD的转换，但是没讲作业的运行，它和Driver Program的关系是啥，和RDD的关系是啥？官方给的例子里面，一执行collect方法就能出结果，那我们就从collect开始看吧，进入R 阅读全文

posted @ 2020-05-27 14:21 大码王阅读(699) 评论(0) 推荐(0) 编辑

Spark源码系列（二）RDD详解

摘要：问题导读：1.什么是RDD?2.如何实现RDD转换？ 1、什么是RDD？上一章讲了Spark提交作业的过程，这一章我们要讲RDD。简单的讲，RDD就是Spark的input，知道input是啥吧，就是输入的数据。 RDD的全名是Resilient Distributed Dataset，意思是容错阅读全文

posted @ 2020-05-27 11:43 大码王阅读(967) 评论(0) 推荐(0) 编辑

Spark源码系列（一）spark-submit提交作业过程

摘要：问题导读：1.spark是如何提交作业的？2.Akka框架是如何实现的？3.如何实现调度的？前言折腾了很久，终于开始学习Spark的源码了，第一篇我打算讲一下Spark作业的提交过程。这个是Spark的App运行图，它通过一个Driver来和集群通信，集群负责作业的分配。今天我要讲的是如何创建这阅读全文

posted @ 2020-05-27 11:24 大码王阅读(2300) 评论(0) 推荐(0) 编辑

大数据集群运维（1）Hadoop + Hive + HBase + Kylin伪分布式安装

摘要：问题导读 1. Centos7如何安装配置？ 2. linux网络配置如何进行？ 3. linux环境下java 如何安装？ 4. linux环境下SSH免密码登录如何配置？ 5. linux环境下Hadoop2.7 如何安装？ 6. linux环境下Mysql 如何安装？ 7. linux环境下H 阅读全文

posted @ 2020-05-27 10:11 大码王阅读(445) 评论(0) 推荐(0) 编辑

项目实战从 0 到 1 学习之 Flink（8）大数据之Hudi + Kylin的准实时数仓实现

摘要：问题导读：1、数据库、数据仓库如何理解？2、数据湖有什么用途？解决什么问题？3、数据仓库的加载链路如何实现？4、Hudi新一代数据湖项目有什么优势？在近期的 Apache Kylin × Apache Hudi Meetup 直播上，Apache Kylin PMC Chair 史少锋和 Kylig 阅读全文

posted @ 2020-05-27 09:46 大码王阅读(2063) 评论(0) 推荐(0) 编辑

ps入门之photoshop切片工具学习教程（工具箱）（10）

摘要：原始图图片过大，请下载文档。 1.在原图上右键，保存到本地计算机 2.在photoshop中打开这张图片。（文件/打开） 3.在工具箱中选择切片工具（快捷键 K ） 4.选中“切片工具”后，在图片上按住左键拖拽，就出现一个切片。 5.以此类推，再次选择“切片工具”在图片上切出更多切片。 6.如果变阅读全文

posted @ 2020-05-26 18:30 大码王阅读(545) 评论(0) 推荐(0) 编辑

ps入门之photoshop魔棒工具使用教程实例（工具箱知识）（工具箱）（09）

摘要：原图：效果图： 1.在原图上右键，保存到本地计算机 2.在photoshop中打开这张图片。（文件/打开） 3.在工具箱中选择魔棒工具（快捷键 W ） 4.然后用鼠标点击多余的区域，进行选择，如果是选择多个区域，要按住SHIFT。注：如果选错可以在菜单栏找到 “窗口/历史记录” ，在里面恢复之前的阅读全文

posted @ 2020-05-26 18:28 大码王阅读(739) 评论(0) 推荐(0) 编辑

ps入门之photoshop移动工具使用教程（工具箱）（08）

摘要：1.先把下面这张图片保存，并且打开。 2.使用之前学的磁性套索工具把花选出来。 3.在工具箱中选择移动工具。 4.将光标移动到选区，拖动鼠标左键，将图形移动到所需部分。 5.移动所选择的区域之后，露出了白色的背景色。 6.此时，在使用移动工具时，同时按动Alt键，被选择的部分不会露出背景色，而是对所阅读全文

posted @ 2020-05-26 18:18 大码王阅读(329) 评论(0) 推荐(0) 编辑

ps入门之photoshop裁切工具使用学习教程（工具箱）（07）

摘要：例一：先来学习如何使用PS中的裁切工具来对照片进行重新构图。原图：效果图： 1.在原图上右键，保存到本地计算机 2.在photoshop中打开这张图片。（文件/打开） 3.在工具箱中选择裁切工具（快捷键C） 4.在画面上拖动鼠标，把想保留的部分框出来。 5.按回车键确定即可。例二（分析如何构图）阅读全文

posted @ 2020-05-26 17:25 大码王阅读(424) 评论(0) 推荐(0) 编辑

ps入门之photoshop套索工具的使用方法教程（工具箱）（06）

摘要：原图：效果图 1.还是先复制一层。 2.在工具箱中选择磁性套索工具。 3.使用套索工具把人物选择出来 4.按CTRL+ENTER转换成选区 5.按住SHIFT键，我们会发现套索工具上多出一个“+”号，然后把刚才没套好的地方选出来 6.另外还有一些位置是没办法一次套上的，按住ALT鼠标变成减号，框选阅读全文

posted @ 2020-05-26 16:52 大码王阅读(917) 评论(0) 推荐(0) 编辑

ps入门之photoshop选框工具使用教程（工具箱）（05）

摘要：用照片本身的画面边缘做暗化及半透明处理，里面再钩一圈细细的白线，效果简洁又非常精致。原图效果图 1.在原图上右键，保存到本地计算机2.在photoshop中打开这张图片。（文件/打开）3.给这张图片复制图层，快捷键（CTRL+J）。相关知识点：图层/复制图层——为什么要复制一层？ 4.在工具箱中阅读全文

posted @ 2020-05-26 14:29 大码王阅读(585) 评论(0) 推荐(0) 编辑

ps入门之认识photoshop中的工具箱（工具栏）（04）

摘要：第一次启动Photoshop CS2时，工具箱将出现在屏幕左侧。可通过拖移工具箱的标题栏来移动它。通过选取“窗口” >“工具”，您也可以显示或隐藏工具箱。工具箱中的每一个工具用一个图标来表示,理解为每一个工具的意图和功能是学习Photoshop CS2的关键。在Photoshop CS2的工具箱阅读全文

posted @ 2020-05-26 14:18 大码王阅读(693) 评论(0) 推荐(0) 编辑

ps入门之photoshop文件操作-打开与存储认识（PS界面介绍）如何新建文档（03）

摘要：新建图像的方式可以使用菜单【文件新建】，或快捷键CTRL+N，也可以按住CTRL双击Photoshop的空白区。所谓空白区就是既没有图像也没有调板的地方。点击后将会出现如下图的对话框。现在对其中的内容一个一个来学习。名称就是图像储存时候的文件名，可以在以后储存的时候再输入。预设指的是已经预先定义阅读全文

posted @ 2020-05-26 14:17 大码王阅读(594) 评论(0) 推荐(0) 编辑

ps入门之ps的工作界面的认识学习（界面介绍）界面的组成（02）

摘要：photoshop的界面是由以下6个部分组成的。标题栏标题栏左边显示photoshop的标志和软件名称。右边三个图标分别是最小化、最大化和关闭按钮。菜单栏photoshop菜单栏包括文件、编辑、图像等9个菜单。工具属性栏主要用来显示工具箱中所选用工具的一些延展的选项。选择不同的工具时出现的相应选项也阅读全文

posted @ 2020-05-26 14:14 大码王阅读(1141) 评论(0) 推荐(0) 编辑

ps入门之下载适合自己用的ps软件（01）

摘要：下载适合自己用的ps软件（入门教学）PS软件下载教程，photoshop下载教程，如何选择适合自己的PS软件版本。在选择版本的时候我们需要这几点第一：电脑的性能主要是看你的电脑配置了.配置高可以选高版本.配置低可以选择低版本.下面是一张官方发布的最低配置表,建议大家在下表配置的基础上X2进行选择 P 阅读全文

posted @ 2020-05-26 14:13 大码王阅读(460) 评论(0) 推荐(0) 编辑

云计算是什么？它有哪些形式？

摘要：在 IT 行业，存在一个 15 年周期现象，从 1966 年开始到可预知的未来若干年，可分为 6 个周期，每个周期的技术热点分别如下： 1966—1980 年为大型机时代； 1981—1995 年为个人计算机时代； 1996—2010 年为互联网时代； 2011—2025 年为云计算时代； 2026 阅读全文

posted @ 2020-05-26 11:25 大码王阅读(503) 评论(0) 推荐(0) 编辑

TensorFlow从0到1之浅谈深度学习（5）

摘要：DNN（深度神经网络算法）现在是AI社区的流行词。最近，DNN 在许多数据科学竞赛/Kaggle 竞赛中获得了多次冠军。自从 1962 年 Rosenblat 提出感知机（Perceptron）以来，DNN 的概念就已经出现了，而自 Rumelhart、Hinton 和 Williams 在 198 阅读全文

posted @ 2020-05-22 14:43 大码王阅读(326) 评论(0) 推荐(0) 编辑

excel如何快速统计出某一分类的最大值？

摘要：问题：如何统计出某一分类的最大值？解答：利用分类汇总或透视表快速搞定！思路1：利用分类汇总功能具体操作方法如下：选中数据区任意一个单元格，然后点击“数据-分类汇总”按钮。（下图 1 处）。在新弹菜单中选择分类字段为“楼号”，汇总方式为“最大值”，汇总项是“水量”。(下图 2 处) 单击确定阅读全文

posted @ 2020-05-22 09:22 大码王阅读(2842) 评论(0) 推荐(0) 编辑

Excel怎样根据出生日期，快速计算出其年龄呢？

摘要：问题：怎样根据出生日期，快速计算出其年龄呢？方法：DATEDIF函数 Step1：在编辑栏中输入公式：=DATEDIF(E2,TODAY(),”Y”)，按回车键。 Step2：用鼠标向下拖拽复制公式，可以快速计算出其他人的年龄。阅读全文

posted @ 2020-05-22 09:20 大码王阅读(6264) 评论(0) 推荐(0) 编辑

Excel只想显示一部分日期，怎样把其余部分隐藏起来？

摘要：问题：只想显示一部分日期，怎样把其余部分隐藏起来？方法：分列 Step1：选中需要修改的单元格——数据——分列。 Step2：固定宽度——点击下一步。 Step3：在建立分列处单击鼠标（若想取消分列线，则双击）——点击下一步。 Step4：设置各列想要的数据格式——完成。阅读全文

posted @ 2020-05-22 09:19 大码王阅读(1248) 评论(0) 推荐(0) 编辑

Excel数据透视表的日常应用技巧

摘要：对工作表中数据进行统计是经常需要的。一般情况我们都是使用菜单命令或函数来进行数据的统计的。可是如果要统计的工作表中记录很多，而且需要统计的项目也很多时，使用这种方法就显得力不从心了。请问还有什么更好的方法来实现吗？接下来，就由小猪带大家一起来感受一下，数据透视表所带来的比较便捷的统计功能。工具/原阅读全文

posted @ 2020-05-21 18:53 大码王阅读(507) 评论(0) 推荐(0) 编辑

人工智能（机器学习）学习之路推荐

摘要：人工智能（机器学习）学习之路推荐目录一、人工智能（机器学习）学习之路推荐——Python 二、纯小白——计算机小白三、计算机小白——计算机语言（Python）小白四、计算机语言小白——算法小白五、算法小白——人生方向定位六、人生定位——机器学习大师七、推荐书单一、人工智能（机器学习）阅读全文

posted @ 2020-05-21 11:10 大码王阅读(408) 评论(0) 推荐(0) 编辑

数据结构之（3）python实现排序算法

摘要：常用排序与插入算法冒泡排序冒泡排序（英语：Bubble Sort）是一种简单的排序算法。它重复地遍历要排序的数列，一次比较两个元素，如果他们的顺序错误就把他们交换过来。遍历数列的工作是重复地进行直到没有再需要交换，也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢“浮” 阅读全文

posted @ 2020-05-21 11:08 大码王阅读(475) 评论(0) 推荐(0) 编辑

excel如何快速计算日期对应的生肖？

摘要：是否可以根据日期统计出生肖？牛闪闪想应该可以吧！结果搜到了一个巨牛无比的公式。 =MID("猴鸡狗猪鼠牛虎兔龙蛇马羊",MOD(YEAR(B2),12)+1,1)，利用年份除以12,的余数，来确定MID函数中生肖的位置。想想也还好理解。赶紧试试动图怎么玩的：还不赶紧收藏这个公式！也许用得上哟！阅读全文

posted @ 2020-05-21 10:53 大码王阅读(853) 评论(0) 推荐(0) 编辑

excel 如何制作带下拉框的动态折线图表

摘要：首先我们需要有个类似下图产品销量的基础数据表。首先将光标放入表格中任意位置，然后插入一个不带点标记的折线图，然后将折线的颜色设置为灰色。第一次设置成灰色后，一定善用f4快捷键进行快速的折线颜色设置。注意看动图的操作。这一步就做好了动图的“背景”图表部分，接下来做动态的部分，也就是能显示红色的折阅读全文

posted @ 2020-05-21 10:47 大码王阅读(1528) 评论(0) 推荐(0) 编辑

如何利用Excel设计一个唱票统计系统？

摘要：具体操作如下：首先需要一个如下的数据结构。唱票数Ｇ列区域，不能手动输入候选人票数，这样很不方便，所以我们需要一个窗体控件，用点击鼠标的方法来实现唱票。在“开发工具－插入－数值调节钮”下图３处，然后拖拽得到一个如下图的控件。（下图４处）接着利用控件来控制Ｇ３单元格，即第一个候选人。选中控件，点阅读全文

posted @ 2020-05-21 10:38 大码王阅读(1945) 评论(0) 推荐(0) 编辑

如何控制excel单元格录入相同内容的次数？

摘要：我们知道如果要用Excel制作让人规范填写的模板，数据有效性，Excel2013版本及以上叫数据验证是必学的技能，正好这个案例可以讲讲数据有效性的一种“高级”设置方法。加入我们需要实现下面的要求，价格只能出现三次，如果输入第四次就提醒无法录入，应该如何做到呢？具体操作如下：选中需要输入的区域，阅读全文

posted @ 2020-05-21 10:36 大码王阅读(537) 评论(0) 推荐(0) 编辑

Excel常用公式大全

摘要：公式是单个或多个函数的结合运用。 AND “与”运算，返回逻辑值，仅当有参数的结果均为逻辑“真（TRUE）”时返回逻辑“真（TRUE）”，反之返回逻辑“假（FALSE）”。条件判断 AVERAGE 求出所有参数的算术平均值。数据计算 COLUMN 显示所引用单元格的列标号值。显示位置 CONC 阅读全文

posted @ 2020-05-21 10:34 大码王阅读(317) 评论(0) 推荐(0) 编辑

Excel经典教程之一

摘要：照片名称：未命名照片名称：自动筛选照片名称：在Excel中字符替换照片名称：在Excel中直接编辑“宏” 照片名称：在Excel中为导入外部数据照片名称：在Excel中行列快速转换照片名称：在Excel中运行“宏” 照片名称：在Excel中添加说明文字照片名称：在Excel中数据分列整理阅读全文

posted @ 2020-05-20 18:48 大码王阅读(247) 评论(0) 推荐(0) 编辑

Hadoop入门到实战（5）sql语句大全（详细）

摘要：数据库操作查看所有数据库 show databases; 1 查看当前使用的数据库 select database(); 1 创建数据库 create databases 数据库名 charset=utf8; 5.删除数据库 drop database 数据库名 1 6 .使用数据句库 use d 阅读全文

posted @ 2020-05-20 17:56 大码王阅读(960) 评论(0) 推荐(0) 编辑

hadoop入门到实战（4）Hive知识思维导图

摘要：阅读全文

posted @ 2020-05-20 17:46 大码王阅读(366) 评论(0) 推荐(0) 编辑

Tensorflow从0到1(4)之神经网络

摘要：一维数据集上的神经网络代码实现： import numpy as np import matplotlib.pyplot as plt from sklearn import datasets import tensorflow.compat.v1 as tf tf.disable_v2_beha 阅读全文

posted @ 2020-05-20 15:25 大码王阅读(1966) 评论(0) 推荐(0) 编辑

Tensorflow从0到1(2)之基础知识

摘要：张量张量是tensorflow中的基本数据结构 # 全零张量 zero_tsr = tf.zeros([row_dim, col_dim]) # 全1张量 ones_tsr = tf.ones([row_dim, col_dim]) # 填充张量 filled_tsr = tf.fill([row 阅读全文

posted @ 2020-05-20 15:22 大码王阅读(462) 评论(0) 推荐(0) 编辑

Tensorflow从0到1（3）之实战传统机器算法

摘要：计算图中的操作代码实现： import numpy as np import tensorflow.compat.v1 as tf tf.disable_v2_behavior() # 使用静态图模式运行以下代码 assert tf.__version__.startswith('2.') ses 阅读全文

posted @ 2020-05-20 15:21 大码王阅读(2338) 评论(0) 推荐(0) 编辑

Tensorflow从0到1（1）之如何安装Tensorflow（Windows和Linux两种版本）

摘要：现在越来越多的人工智能和机器学习以及深度学习，强化学习出现了，然后自己也对这个产生了点兴趣，特别的进行了一点点学习，就通过这篇文章来简单介绍一下，关于如何搭建Tensorflow以及如何进行使用。建议的话，还是要学习了一点Python基础知识和Linux知识是最好的！版本：Windows7 一：安阅读全文

posted @ 2020-05-20 15:10 大码王阅读(970) 评论(0) 推荐(0) 编辑

Linux入门到实战之（1）使用手册

摘要：一、开关机 sync ：把内存中的数据写到磁盘中（关机、重启前都需先执行sync） shutdown -rnow或reboot ：立刻重启 shutdown -hnow ：立刻关机 shutdown -h 19:00 ：预定时间关闭系统（晚上7点关机，如果现在超过8点则第二天） shutdown - 阅读全文

posted @ 2020-05-20 14:24 大码王阅读(289) 评论(0) 推荐(0) 编辑

Linux入门到实战之（2）常用命令全集

摘要：目录操作 mkdir: 创建目录 -p : 递归的创建目录也就是可以创建多层目录一次创建多个目录： mkdir {a,b,c,d,e,f} 一次创建 a b c d e f多个目录。 rmdir：删除一个空文件夹 cp：复制文件或者文件夹 -a =-pdr -p 同时复制文件属性，比如修改日期阅读全文

posted @ 2020-05-20 14:22 大码王阅读(257) 评论(0) 推荐(0) 编辑

python机器学习（五）回归算法-线性回归

摘要：一、线性回归的概念 1.1、定义线性回归通过一个或者多个自变量与因变量之间之间进行建模的回归分析。其中特点为一个或多个称为回归系数的模型参数的线性组合。优点：结果易于理解，计算不复杂。缺点：对非线性的数据拟合不好。适用数据类型：数值型和标称型。 1.2、分类一元线性回归：涉及到的变量只有一阅读全文

posted @ 2020-05-20 11:46 大码王阅读(3966) 评论(0) 推荐(1) 编辑

python机器学习（四）分类算法-决策树

摘要：一、决策树的原理决策树思想的来源非常朴素，程序设计中的条件分支结构就是if-then结构，最早的决策树就是利用这类结构分割数据的一种分类学习方法。二、决策树的现实案例相亲相亲决策树女儿：多大年纪了？母亲：26。女儿：长的帅不帅？母亲：挺帅的。女儿：收入高不？母亲：不算很高，中等阅读全文

posted @ 2020-05-20 11:44 大码王阅读(1418) 评论(0) 推荐(0) 编辑

python机器学习（三）分类算法-朴素贝叶斯

摘要：一、概率基础概率定义：概率定义为一件事情发生的可能性，例如，随机抛硬币，正面朝上的概率。联合概率：包含多个条件，且所有条件同时成立的概率，记作：𝑃(𝐴,𝐵) 。条件概率：事件A在另外一个事件B已经发生条件下的发生概率，记作：𝑃(𝐴|𝐵) 。P(A1,A2|B) = P(A1|B)P 阅读全文

posted @ 2020-05-20 11:42 大码王阅读(815) 评论(0) 推荐(1) 编辑

python 机器学习（二）分类算法-k近邻算法

摘要：一、什么是K近邻算法？定义: 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。来源: KNN算法最早是由Cover和Hart提出的一种分类算法. 计算距离公式: 两个样本的距离可以通过如下公式计算，又叫欧式距离。比如说，a(a1 阅读全文

posted @ 2020-05-20 11:41 大码王阅读(1045) 评论(0) 推荐(0) 编辑

python 机器学习（一）机器学习概述与特征工程

摘要：一、机器学习概述 1.1、什么是机器学习？机器学习是从数据中自动分析获得规律（模型），并利用规律对未知数据进行预测 1.2、为什么需要机器学习？解放生产力，智能客服，可以不知疲倦的24小时作业解决专业问题，ET医疗，帮助看病提供社会便利，例如杭州的城市大脑 1.3、机器学习应用场景自然语言阅读全文

posted @ 2020-05-20 09:53 大码王阅读(646) 评论(0) 推荐(0) 编辑

python之（6）如何把python项目部署到linux服务器上

摘要：一、背景用Python写了个脚本，需要部署到Linux环境的服务器上，由于服务器linux系统（centos,redhat等）自带的是python2，现在的python萌新都是从python3开始学习，所以需要给服务器配置一个python3环境，一番摸索过后，踩过一些坑，也总结了一下经验，故留此文阅读全文

posted @ 2020-05-20 09:49 大码王阅读(23854) 评论(0) 推荐(2) 编辑

spark机器学习从0到1利用机器算法RFM模型做用户价值分析（十七）

摘要：一、案例背景在产品迭代过程中，通常需要根据用户的属性进行归类，也就是通过分析数据，对用户进行归类，以便于在推送及转化过程中获得更大的收益。本案例是基于某互联网公司的实际用户购票数据为研究对象，对用户购票的时间，购买的金额进行了采集，每个用户用手机号来区别唯一性。数据分析人员根据用户购买的时间和金阅读全文

posted @ 2020-05-20 09:46 大码王阅读(1019) 评论(0) 推荐(0) 编辑

spark机器学习从0到1特征变换-标签和索引的转化（十六）

摘要：一、原理在机器学习处理过程中,为了方便相关算法的实现,经常需要把标签数据(一般是字符串)转化成整数索引,或是在计算结束后将整数索引还原为相应的标签. Spark ML 包中提供了几个相关的转换器: StringIndexer,IndexToString,OneHotEncoder,VectorIn 阅读全文

posted @ 2020-05-19 23:14 大码王阅读(394) 评论(0) 推荐(0) 编辑

spark机器学习从0到1特征选择-卡方选择器（十五）

摘要：一、公式卡方检验的基本公式，也就是χ2的计算公式，即观察值和理论值之间的偏差卡方检验公式其中：A 为观察值，E为理论值，k为观察值的个数，最后一个式子实际上就是具体计算的方法了 n 为总的频数，p为理论频率，那么n*p自然就是理论频数（理论值）二、相关概念卡方分布：可以看出当观察值和理论值阅读全文

posted @ 2020-05-19 23:11 大码王阅读(484) 评论(0) 推荐(0) 编辑

spark机器学习从0到1特征抽取–Word2Vec（十四）

摘要：一、概念 Word2vec是一个Estimator，它采用一系列代表文档的词语来训练word2vecmodel。该模型将每个词语映射到一个固定大小的向量。word2vecmodel使用文档中每个词语的平均数来将文档转换为向量，然后这个向量可以作为预测的特征，来计算文档相似度计算等等。二、代码实现阅读全文

posted @ 2020-05-19 23:09 大码王阅读(326) 评论(0) 推荐(0) 编辑

spark机器学习从0到1特征抽取–CountVectorizer（十三）

摘要：一、概念 CountVectorizer 旨在通过计数来将一个文档转换为向量。当不存在先验字典时，Countvectorizer作为Estimator提取词汇进行训练，并生成一个CountVectorizerModel用于存储相应的词汇向量空间。该模型产生文档关于词语的稀疏表示，其表示可以传递给其他阅读全文

posted @ 2020-05-19 23:07 大码王阅读(585) 评论(0) 推荐(0) 编辑

spark机器学习从0到1特征提取 TF-IDF(十二）

摘要：一、概念 “词频－逆向文件频率”（TF-IDF）是一种在文本挖掘中广泛使用的特征向量化方法，它可以体现一个文档中词语在语料库中的重要程度。词语由t表示，文档由d表示，语料库由D表示。词频TF(t,d)是词语t在文档d中出现的次数。文件频率DF(t,D)是包含词语的文档的个数。如果我们只使用词频来衡阅读全文

posted @ 2020-05-19 18:41 大码王阅读(289) 评论(0) 推荐(0) 编辑

spark机器学习从0到1机器学习工作流 (十一）

摘要：一、概念一个典型的机器学习过程从数据收集开始，要经历多个步骤，才能得到需要的输出。这非常类似于流水线式工作，即通常会包含源数据ETL（抽取、转化、加载），数据预处理，指标提取，模型训练与交叉验证，新数据预测等步骤。 MLlib标准化了用于机器学习算法的API，从而使将多种算法组合到单个管道或工作流阅读全文

posted @ 2020-05-19 18:38 大码王阅读(452) 评论(0) 推荐(0) 编辑

spark机器学习从0到1聚类算法 (十）

摘要：一、概念 1.1、定义按照某一个特定的标准（比如距离），把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不再同一个簇内的数据对象的差异性也尽可能的大。聚类属于典型的无监督学习（Unsupervised Learning）方法。与监督学习（如分类器）相比，无监督学习阅读全文

posted @ 2020-05-19 17:01 大码王阅读(691) 评论(0) 推荐(0) 编辑

spark机器学习从0到1协同过滤算法 (九）

摘要：一、概念协同过滤算法主要分为基于用户的协同过滤算法和基于项目的协同过滤算法。基于用户的协同过滤算法和基于项目的协同过滤算法 1.1、以用户为基础（User-based）的协同过滤用相似统计的方法得到具有相似爱好或者兴趣的相邻用户，所以称之为以用户为基础（User-based）的协同过滤或基于邻阅读全文

posted @ 2020-05-19 16:52 大码王阅读(498) 评论(0) 推荐(1) 编辑

spark机器学习从0到1主成分分析-PCA (八）

摘要：PCA 一、概念主成分分析（Principal Component Analysis）是指将多个变量通过线性变换以选出较少数重要变量的一种多元统计分析方法，又称为主成分分析。在实际应用场合中，为了全面分析问题，往往提出很多与此有关的变量（或因素），因为每个变量都在不同程度上反映这个应用场合的某些信阅读全文

posted @ 2020-05-19 16:47 大码王阅读(556) 评论(0) 推荐(0) 编辑

spark机器学习从0到1奇异值分解-SVD (七）

摘要：降维（Dimensionality Reduction）是机器学习中的一种重要的特征处理手段，它可以减少计算过程中考虑到的随机变量（即特征）的个数，其被广泛应用于各种机器学习问题中，用于消除噪声、对抗数据稀疏问题。它在尽可能维持原始数据的内在结构的前提下，得到一组描述原数据的，低维度的隐式特征（或阅读全文

posted @ 2020-05-19 16:44 大码王阅读(619) 评论(0) 推荐(0) 编辑

spark机器学习从0到1决策树(六）

摘要：一、概念决策树及其集合是分类和回归的机器学习任务的流行方法。决策树被广泛使用，因为它们易于解释，处理分类特征，扩展到多类分类设置，不需要特征缩放，并且能够捕获非线性和特征交互。诸如随机森林和增强的树集合算法是分类和回归任务的最佳表现者。决策树（decision tree）是一种基本的分类与回阅读全文

posted @ 2020-05-19 16:30 大码王阅读(420) 评论(0) 推荐(0) 编辑

spark机器学习从0到1支持向量机SVM(五）

摘要：分类分类旨在将项目分为不同类别。最常见的分类类型是二元分类，其中有两类，通常分别为正数和负数。如果有两个以上的类别，则称为多类分类。 spark.mllib支持两种线性分类方法：线性支持向量机（SVM）和逻辑回归。线性SVM仅支持二进制分类，而逻辑回归支持二进制和多类分类问题。对于这两种方阅读全文

posted @ 2020-05-19 15:40 大码王阅读(674) 评论(0) 推荐(0) 编辑

spark机器学习从0到1逻辑斯蒂回归之(四）

摘要：逻辑斯蒂回归一、概念逻辑斯蒂回归（logistic regression）是统计学习中的经典分类方法，属于对数线性模型。logistic回归的因变量可以是二分类的，也可以是多分类的。logistic回归的因变量可以是二分非线性差分方程类的，也可以是多分类的，但是二分类的更为常用，也更加容易解释。阅读全文

posted @ 2020-05-19 14:39 大码王阅读(478) 评论(0) 推荐(0) 编辑

spark机器学习从0到1基本的统计工具之(三）

摘要：给定一个数据集，数据分析师一般会先观察一下数据集的基本情况，称之为汇总统计或者概要性统计。一般的概要性统计用于概括一系列观测值，包括位置或集中趋势（比如算术平均值、中位数、众数和四分位均值），展型（比如四分位间距、绝对偏差和绝对距离偏差、各阶矩等），统计离差，分布的形状，依赖性等。除此之外，spar 阅读全文

posted @ 2020-05-19 14:37 大码王阅读(538) 评论(0) 推荐(0) 编辑

spark机器学习从0到1基本数据类型之(二）

摘要：MLlib支持存储在单个机器上的局部向量和矩阵，以及由一个或多个RDD支持的分布式矩阵。局部向量和局部矩阵是用作公共接口的简单数据模型。底层线性代数操作由Breeze提供。在监督学习中使用的训练示例在MLlib中称为“标记点”。一、本地向量局部向量具有整数类型和基于0的索引和双类型值，存储阅读全文

posted @ 2020-05-19 14:21 大码王阅读(445) 评论(0) 推荐(0) 编辑

spark机器学习从0到1介绍入门之(一）

摘要：一、什么是机器学习机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具阅读全文

posted @ 2020-05-19 14:16 大码王阅读(3063) 评论(0) 推荐(0) 编辑

python之感知器-从零开始学深度学习

摘要：感知器-从零开始学深度学习未来将是人工智能和大数据的时代，是各行各业使用人工智能在云上处理大数据的时代，深度学习将是新时代的一大利器，在此我将从零开始记录深度学习的学习历程。我希望在学习过程中做到以下几点：了解各种神经网络设计原理。掌握各种深度学习算法的python编程实现。运用深度学习解阅读全文

posted @ 2020-05-19 11:44 大码王阅读(426) 评论(0) 推荐(0) 编辑

机器学习算法及代码实现–支持向量机

摘要：机器学习算法及代码实现–支持向量机 1、支持向量机 SVM希望通过N-1维的分隔超平面线性分开N维的数据，距离分隔超平面最近的点被叫做支持向量，我们利用SMO（SVM实现方法之一）最大化支持向量到分隔面的距离，这样当新样本点进来时，其被分类正确的概率也就更大。我们计算样本点到分隔超平面的函数间隔，如阅读全文

posted @ 2020-05-18 17:41 大码王阅读(1040) 评论(0) 推荐(0) 编辑

机器学习算法及代码实现–K邻近算法

摘要：机器学习算法及代码实现–K邻近算法 1、K邻近算法将标注好类别的训练样本映射到X（选取的特征数）维的坐标系之中，同样将测试样本映射到X维的坐标系之中，选取距离该测试样本欧氏距离（两点间距离公式）最近的k个训练样本，其中哪个训练样本类别占比最大，我们就认为它是该测试样本所属的类别。 2、算法步骤：阅读全文

posted @ 2020-05-18 17:29 大码王阅读(315) 评论(0) 推荐(0) 编辑

机器学习算法及代码实现–决策树

摘要：机器学习算法及代码实现–决策树 1、决策树决策树算法的核心在于决策树的构建，每次选择让整体数据香农熵（描述数据的混乱程度）减小最多的特征，使用其特征值对数据进行划分，每次消耗一个特征，不断迭代分类，直到所有特征消耗完（选择剩下数据中出现次数最多的类别作为这堆数据的类别），或剩下的数据全为同一类别，阅读全文

posted @ 2020-05-18 17:18 大码王阅读(1159) 评论(1) 推荐(0) 编辑

AI技术原理|机器学习算法

摘要：摘要机器学习算法分类：监督学习、半监督学习、无监督学习、强化学习基本的机器学习算法：线性回归、支持向量机(SVM)、最近邻居(KNN)、逻辑回归、决策树、k平均、随机森林、朴素贝叶斯、降维、梯度增强公式、图示、案例机器学习算法分类机器学习算法大致可以分为：监督学习 | Supervise 阅读全文

posted @ 2020-05-18 16:59 大码王阅读(1277) 评论(0) 推荐(0) 编辑

python之（5）Python内置函数一览表

摘要：Python 解释器自带的函数叫做内置函数，这些函数可以直接使用，不需要导入某个模块。如果你熟悉 Shell 编程，了解什么是 Shell 内置命令，那么你也很容易理解什么是 Python 内置函数，它们的概念是类似的。将使用频繁的代码段封装起来，并给它起一个名字，以后使用的时候只要知道名字就可以阅读全文

posted @ 2020-05-18 14:27 大码王阅读(691) 评论(0) 推荐(0) 编辑

python之（4）Python VS Code下载和安装教程

摘要：Visual Studio Code，简称 VS Code，是由微软公司开发的 IDE 工具。与微软其他 IDE（如 Visual Studio）不同的是，Visual Studio Code 是跨平台的，可以安装在 Windows、Linux 和 macOS平台上运行。不仅如此，Visual St 阅读全文

posted @ 2020-05-18 14:20 大码王阅读(1838) 评论(0) 推荐(0) 编辑

python之（3）Python Eclipse+PyDec下载和安装教程（超级详细）

摘要：Eclipse 是著名的跨平台 IDE 工具，最初 Eclipse 是 IBM 支持开发的免费 Java 开发工具，2001 年 11 月贡献给开源社区，目前它由非盈利软件供应商联盟 Eclipse 基金会管理。Eclipse 本身也是一个框架平台，它有着丰富的插件，例如 C++、Python、PH 阅读全文

posted @ 2020-05-18 14:17 大码王阅读(785) 评论(0) 推荐(0) 编辑

python之（2）PyCharm下载和安装教程

摘要：PyCharm 是 JetBrains 公司（www.jetbrains.com）研发，用于开发 Python 的 IDE 开发工具。图 1 所示为 JetBrains 公司开发的多款开发工具，其中很多工具都好评如潮，这些工具可以编写 Python、C/C++、C#、DSL、Go、Groovy、Ja 阅读全文

posted @ 2020-05-18 14:14 大码王阅读(1090) 评论(0) 推荐(0) 编辑

python之（1）Linux（Ubuntu）系统安装Python

摘要：Linux 系统是为编程而生的，因此绝大多数的 Linux 发行版（Ubuntu、CentOS 等）都默认自带了 Python。有的 Linux 发行版甚至还会自带两个版本的 Python，例如最新版的 Ubuntu 会自带 Python 2.x 和 Python 3.x。打开 Linux 发行版阅读全文

posted @ 2020-05-18 14:09 大码王阅读(753) 评论(0) 推荐(0) 编辑

ClickHouse基本操作（二）

摘要：一、先来说一下，ClickHouse为啥快 MySQL单条SQL是单线程的，只能跑满一个core，ClickHouse相反，有多少CPU，吃多少资源，所以飞快； ClickHouse不支持事务，不存在隔离级别。这里要额外说一下，有人觉得，你一个数据库都不支持事务，不支持ACID还玩个毛。ClickH 阅读全文

posted @ 2020-05-15 16:15 大码王阅读(4197) 评论(1) 推荐(1) 编辑

clickhouse基本操作一

摘要：常用SQL 创建表 1 2 3 4 5 6 7 CREATE TABLE b6logs( eventDate Date, impid UInt64, uid String, idfa String, imei String ) ENGINE=MergeTree(eventDate, (impid, 阅读全文

posted @ 2020-05-15 16:06 大码王阅读(5427) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（4）Spark_Transformation和Action算子

摘要：Transformation 和 Action 常用算子一、Transformation 1.1 map 1.2 filter 1.3 flatMap 1.4 mapPartitions 1.5 mapPartitionsWithIndex 1.6 sample 1.7 union 1.8 i 阅读全文

posted @ 2020-05-15 09:40 大码王阅读(379) 评论(0) 推荐(0) 编辑

sparkcore入门到实战之（3）弹性式数据集RDD

摘要：弹性式数据集RDD 一、RDD简介二、创建RDD 2.1 由现有集合创建 2.2 引用外部存储系统中的数据集 2.3 textFile & wholeTextFiles三、操作RDD四、缓存RDD 4.1 缓存级别 4.2 使用缓存 4.3 移除缓存五、理解shuffle 5.1 shuffle 阅读全文

posted @ 2020-05-15 09:38 大码王阅读(326) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(5)--Spark_Streaming整合Kafka

摘要：Spark Streaming 整合 Kafka 一、版本说明二、项目依赖三、整合Kafka 3.1 ConsumerRecord 3.2 生产者属性 3.3 位置策略 3.4 订阅方式 3.5 提交偏移量四、启动测试一、版本说明 Spark 针对 Kafka 的不同版本，提供了两套整合方阅读全文

posted @ 2020-05-15 09:35 大码王阅读(424) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(4)--Spark Streaming 整合 Flume

摘要：Spark Streaming 整合 Flume 一、简介二、推送式方法 2.1 配置日志收集Flume 2.2 项目依赖 2.3 Spark Streaming接收日志数据 2.4 项目打包 2.5 启动服务和提交作业 2.6 测试 2.7 注意事项三、拉取式方法 3.1 配置日志收集Flum 阅读全文

posted @ 2020-05-15 09:32 大码王阅读(456) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(3)--Spark Streaming与流处理

摘要：Spark Streaming与流处理一、流处理 1.1 静态数据处理 1.2 流处理二、Spark Streaming 2.1 简介 2.2 DStream 2.3 Spark & Storm & Flink 一、流处理 1.1 静态数据处理在流处理之前，数据通常存储在数据库，文件系统阅读全文

posted @ 2020-05-14 15:40 大码王阅读(434) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(2)--Spark Streaming 基本操作

摘要：Spark Streaming 基本操作一、案例引入 3.1 StreamingContext 3.2 数据源 3.3 服务的启动与停止二、Transformation 2.1 DStream与RDDs 2.2 updateStateByKey 2.3 启动测试三、输出操作 3.1 输出API 阅读全文

posted @ 2020-05-14 15:35 大码王阅读(1791) 评论(0) 推荐(0) 编辑

hadoop入门到实战（3）hive数据仓库入门到实战及面试

摘要：第一章、hive入门一、hive入门手册 1.什么是数据仓库 1.1数据仓库概念对历史数据变化的统计，从而支撑企业的决策。比如：某个商品最近一个月的销量，预判下个月应该销售多少，从而补充多少货源。 1.2传统数据仓库面临的挑战（1）无法满足快速增长的海量数据存储需求（2）无法有效处理不同类型阅读全文

posted @ 2020-05-13 16:23 大码王阅读(2604) 评论(1) 推荐(0) 编辑

数据结构之（2）JAVA实现双向链表

摘要：public class DoubleLinkedList { // 节点类Node private static class Node { Object value; Node prev = this; Node next = this; Node(Object v) { value = v; } 阅读全文

posted @ 2020-05-13 00:11 大码王阅读(255) 评论(0) 推荐(0) 编辑

数据结构之（1）Java十大排序

摘要：0.1 算法分类十种常见排序算法可以分为两大类：比较类排序：通过比较来决定元素间的相对次序，由于其时间复杂度不能突破O(nlogn)，因此也称为非线性时间比较类排序。非比较类排序：不通过比较来决定元素间的相对次序，它可以突破基于比较排序的时间下界，以线性时间运行，因此也称为线性时间非比较类排序阅读全文

posted @ 2020-05-13 00:03 大码王阅读(259) 评论(0) 推荐(0) 编辑

clickhouse入门到实战及面试（三）

摘要：第一章、 clickhouse入门一、ClickHouse介绍 ClickHouse（开源）是一个面向列的数据库管理系统(DBMS)，用于在线分析处理查询(OLAP)。关键词：开源、面向列、联机分析处理（OLAP） ClickHouse不仅查询速度快（相较于hive等类似的分析型DBMS）,而且阅读全文

posted @ 2020-05-12 16:50 大码王阅读(12295) 评论(0) 推荐(2) 编辑

flink源码解析（1）透过源码看懂Flink核心框架的执行流程

摘要：前言 Flink是大数据处理领域最近很火的一个开源的分布式、高性能的流式处理框架，其对数据的处理可以达到毫秒级别。本文以一个来自官网的WordCount例子为引，全面阐述flink的核心架构及执行流程，希望读者可以借此更加深入的理解Flink逻辑。本文跳过了一些基本概念，如果对相关概念感到迷惑，请阅读全文

posted @ 2020-05-09 15:48 大码王阅读(6116) 评论(0) 推荐(0) 编辑

hadoop入门到实战（2）hive经典练习题

摘要：一.建表和加载数据 1.student表 create table if not exists student(s_id int,s_name string,s_birth string,s_sex string) row format delimited fields terminated by 阅读全文

posted @ 2020-05-07 23:22 大码王阅读(472) 评论(0) 推荐(0) 编辑

flink入门到实战（6）flink批处理从0到1

摘要：一、DataSet API之Data Sources（消费者之数据源）介绍： flink提供了大量的已经实现好的source方法，你也可以自定义source 通过实现sourceFunction接口来自定义无并行度的source，或者你也可以通过实现ParallelSourceFunction 阅读全文

posted @ 2020-05-07 23:17 大码王阅读(1092) 评论(0) 推荐(1) 编辑

flink入门到实战（5）flink流处理从0到1

摘要：一、DataStream API之Data Sources（消费者之数据源）介绍： source是程序的数据源输入，你可以通过StreamExecutionEnvironment.addSource(sourceFunction)来为你的程序添加一个source。 flink提供了大量的已经实现好阅读全文

posted @ 2020-05-07 23:16 大码王阅读(1058) 评论(0) 推荐(0) 编辑

flink入门到实战（4）flink基础篇

摘要：Flink面试--核心概念和基础考察 1、简单介绍一下 Flink 2、Flink 相比传统的 Spark Streaming 有什么区别? 3、Flink 的组件栈有哪些？面试知识带你，分为以下几个部分：第一部分：Flink 中的核心概念和基础篇，包含了 Flink 的整体介绍、核心概念、算子阅读全文

posted @ 2020-05-07 23:05 大码王阅读(722) 评论(1) 推荐(0) 编辑

flink入门到实战（3）flink进阶篇

摘要：Flink 面试--进阶篇 1、Flink是如何支持批流一体的？ 2、Flink是如何做到高效的数据交换的？ 3、Flink是如何做容错的？ 4、Flink 分布式快照的原理是什么？ 5、Flink 是如何保证Exactly-once语义的？ 6、Flink 的 kafka 连接器有什么特别的地方？阅读全文

posted @ 2020-05-07 23:04 大码王阅读(1837) 评论(0) 推荐(0) 编辑

flink源码阅读（2）

摘要：Flink面试--源码篇 1、Flink Job的提交流程？ 2、Flink所谓"三层图"结构是哪几个"图"？ 3、JobManger在集群中扮演了什么角色？ 4、JobManger在集群启动过程中起到什么作用？ 5、JobManger在集群启动过程中起到什么作用？ 6、JobManger在集群启动阅读全文

posted @ 2020-05-07 23:03 大码王阅读(874) 评论(1) 推荐(1) 编辑

博客园美化大全

该文被密码保护。

posted @ 2020-05-07 11:38 大码王阅读(1) 评论(0) 推荐(0) 编辑

SparkStreaming入门到实战之(1)--spark优化总结

摘要：1、Spark调优背景目前Zeppelin已经上线一段时间，Spark作为底层SQL执行引擎，需要进行整体性能调优，来提高SQL查询效率。本文主要给出调优的结论，因为涉及参数很多，故没有很细粒度调优，但整体调优方向是可以得出的。环境：服务器600+，spark 2.0.2，Hadoop 2.6. 阅读全文

posted @ 2020-05-07 11:08 大码王阅读(376) 评论(0) 推荐(0) 编辑

hadoop入门到实战（1）hive优化总结

摘要：1. 概述 1.1 hive的特征：可以通过SQL轻松访问数据的工具，从而实现数据仓库任务，如提取/转换/加载（ETL），报告和数据分析；它可以使已经存储的数据结构化；可以直接访问存储在Apache HDFS或其他数据存储系统（如Apache HBase）中的文件； Hive除了支持MapRe 阅读全文

posted @ 2020-05-07 11:06 大码王阅读(681) 评论(0) 推荐(0) 编辑

flink入门到实战（2）flink优化总结

摘要：一、高性能Flink SQL优化技巧 1、Group Aggregate优化技巧开启MicroBatch或MiniBatch（提升吞吐） MicroBatch和MiniBatch都是微批处理，只是微批的触发机制略有不同。原理同样是缓存一定的数据后再触发处理，以减少对State的访问，从而提升吞吐并阅读全文

posted @ 2020-05-07 11:01 大码王阅读(4361) 评论(0) 推荐(0) 编辑

机器学习算法一般步骤

摘要：1、使用机器学习来解决问题，我们用数学语言来描述它，然后建立一个模型，例如回归模型或者分类模型等来描述这个问题； 2、通过最小化误差、最大似然、最大后验概率等等建立模型的代价函数，转化为最优化问题。找到最优化问题的解，也就是能拟合我们的数据的最好的模型参数； 3、求解这个代价函数，找到最优解。求最阅读全文

posted @ 2020-05-07 10:48 大码王阅读(2748) 评论(0) 推荐(0) 编辑

flink入门到实战（1）入门学习

摘要：Flink学习笔记一.简介 1.定义：针对流数据和批数据的分布式处理引擎。它主要是由 Java 代码实现。。 2.应用场景：流数据：把所有任务当成流来处理，处理观察和分析连续事件产生的数据。 3.重要角色： ①Client ：用来提交任务给JobManager。 ②JobMan 阅读全文

posted @ 2020-05-07 10:11 大码王阅读(756) 评论(0) 推荐(0) 编辑