11 2018 档案
摘要:1、编辑(Editing) Ctrl + Space 基本的代码完成(类、方法、属性) Ctrl + Alt + Space 快速导入任意类 Ctrl + Shift + Enter 语句完成 Ctrl + P 参数信息(在方法中调用参数) Ctrl + Q 快速查看文档 Shift + F1 外部
阅读全文
摘要:本章内容: 面向对象编程介绍 为什么要用面向对象进行开发? 面向对象的特性:封装、继承、多态 类、方法 引子 你现在是一家游戏公司的开发人员,现在需要你开发一款叫做<人狗大战>的游戏,你就思考呀,人狗作战,那至少需要2个角色,一个是人, 一个是狗,且人和狗都有不同的技能,比如人拿棍打狗, 狗可以咬人
阅读全文
摘要:计算器开发需求 实现加减乘除及拓号优先级解析 用户输入 1 - 2 * ( (60-30 +(-40/5) * (9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2) )等类似公式后,必须自己解析里面的(),+,-,*,/符号和公式,
阅读全文
摘要:命令模式 (按键 Esc 开启) Enter : 转入编辑模式 Shift Enter : 运行本单元,选中下个单元 Ctrl Enter : 运行本单元 Alt Enter : 运行本单元,在其下插入新单元 Y : 单元转入代码状态 M :单元转入markdown状态 R : 单元转入raw状态
阅读全文
摘要:一、思维业务作业 天善学院的数据分析框架 思考: 1.任何一个公司都是以盈利为目的,这里天善作为一个线上学习平台,核心应该是用户,以用户学习付费课程而盈利 2.以用户为核心,就涉及了用户生命周期,适用于AARRR框架 下面是基于AARRR框架画出来的天善学院的数据分析框架: 二、Excel作业 此作
阅读全文
摘要:python的应用场景 重复性的东西编写脚本 和对于大数据量的操作 数据搭建的环境 不建议自己在网上找下载,建议下载anaconda,可在清华镜像里面下载anaconda,下载安装之后可在桌面上找到程序image.png jupyer Notebook 为本次学习的常用项目,可进行可视化界面操作,分
阅读全文
摘要:当拿到一份数据的时候,首先会怎么做? 描述性统计学,概率推断统计。 描述性统计学 数值数据:计算 分类数据:不能进行计算,例如,男1 女0 代表一个类别 数值数据和分类数据可以进行互相转换 一般描述统计的方式方法: 1.分类数据的描述性统计:单纯计数就可以 2.数据描述统计: 3.统计度量:平均数
阅读全文
摘要:首先,先了解一下数据库的基本概念要点: 数据库是数据存储的集合,表示数据结构化的信息 列存储表中的信息 行存储表的明细 主键是表中的唯一标识 主键不具备业务意义 在实际操作中,对表的主键不做强制性要求,但是建议设立 主键必须唯一 每行必须有一个主键,不可为空 主键的值不可被修改 主键值被删除后不可重
阅读全文
摘要:美丽的图表,应该是有用的图表 对于数据可视化,大多数人下意识是要好看,下意识的去追求美感,觉得高大尚。其实,美丽的图表应该是有用的图表。 数据可视化的目的是让数据更高效,让读者更高效的进行阅读,而不是自己使用。好的可视化能突出背后的规律,突出重要的因素,最后才是美观。 故 设计图标要明确目的性 【图
阅读全文
摘要:Excel常用于敏捷,快速,需要短时间相应的场景下是非常便捷的数据处理工具。 相对于语言类例如python和R等则用于常规的,规律的场景中应用,便于形成日常规则统计分析。 对于学习的路径:Excel函数 SQL函数 python 必知必会内容:保证使用版本是2013+;培养好的数据表格习惯;主动性的
阅读全文
摘要:一,业务掌握的重要性 很多分析数出的结论得不到业务部门的认可或者得出的解决方案无法落地实现,原因是因为对业务了解匮乏。唯有了解业务,才能建立起业务数据模型,建立起数据分析的体系。 二,经典的业务分析指标将解 (课程截图) 架构化+公式化+业务化=指标 指标的5要素: 1. 核心指标 2. 好的指标应
阅读全文
摘要:一,前言 思维缺失 造成“不知道,不确定“(问题发生没?问题在哪里?为什么?不确定对不对?不确定执行结果?不知道老板是否满意给不给加薪?。。。。) 要拥有三种核心思维: 1. 结构化 2. 公式化 3. 业务化 数据分析思维7大技巧:1.象限法 2.多维法 3.假设法 4.指数法 5.二八法则 6.
阅读全文
摘要:第一周 "数据分析师思维" 第二周 "业务分析" 第三周 "Excel分析" 第四周 "数据可视化" 第五周 "MySQL数据库" 第六周 "统计学" 第七周 "Python" 第八周 "三大作业"
阅读全文
摘要:第一章 准备工作 1.1 What Is This Book About(这本书是关于什么的) 1.2 Why Python for Data Analysis?(为什么使用Python做数据分析) 1.3 Essential Python Libraries(一些重要的Python库) 1.4 I
阅读全文
摘要:所有人(好吧,不是所有人)都知道 python 是一门用途广泛、易读、而且容易入门的编程语言。 但同时 python 语法也允许我们做一些很奇怪的事情。 使用 lambda 表达式重写多行函数 众所周知 python 的 lambda 表达式不支持多行代码。但是可以模拟出多行代码的效果。 def f
阅读全文
摘要:本文目录 一 time与datetime模块 二 random模块 三 os模块 四 sys模块 五 shutil模块 六 json&pickle模块 七 shelve模块 八 xml模块 九 configparser模块 十 hashlib模块 十一 suprocess模块 十二 logging模
阅读全文
摘要:2.3 Python语言基础 1 语言语义(Language Semantics) 缩进,而不是括号 Python使用空格(tabs or spaces)来组织代码结构,而不是像R,C++,Java那样用括号。 建议使用四个空格来作为默认的缩进,设置tab键为四个空格 另外可以用分号隔开多个语句:
阅读全文
摘要:2.2 IPython基础 1 Running the IPython Shell (运行IPython Shell) 可以通过命令行启动IPython,就像启动标准的Python解释器一样,直接在terminal中键入ipython,回车即可。因为这里我用的是Jupyter Notebook,默认
阅读全文
摘要:2.1 The Python Interpreter(Python解释器) Python是一门解释性语言。Python的解释器一次只能运行一个命令。标准的Python解释器环境可以用通过输入python进入(在终端输入python后,就能进入解释器): 是提示符(prompt),告诉你可以输入指令。
阅读全文
摘要:1.6 Navigating This Book(本书导航) 如果之前没有接触过Python,那么你应该在第2章和第3章多花一些时间。这两章介绍了Python语言的特性和IPython shell以及Jupyter notebooks。这些东西是本书的基本知识。如果已经有了相关经验,可以直接跳过这些
阅读全文
摘要:1.5 Community and Conferences(社区和讨论组)+ 私货 下面是一些和科学计算,数据处理相关的Python社群和讨论组,如果有什么问题可以进行提问: pydata: A Google Group list for questions related to Python fo
阅读全文
摘要:1.4 Installation and Setup(安装和设置) 这里我们用Anaconda发行版作为Python的使用环境,推荐安装Python3.6,本书就是用Python3.6代码写成的。(译者:我使用的也是Anaconda,Python版本是3.5,与3.6没有任何使用上的差别) 译者:针
阅读全文
摘要:1.3 Essential Python Libraries(一些重要的Python库) 如果不了解Python的数据生态,以及本书中即将用到的一些库,这里会做一个简单的介绍: Numpy 这里就不过多介绍了,下面给出一些链接可以参考。这个库太重要了,Python之所以能在科学计算上独领风骚很大程度
阅读全文
摘要:1.2 Why Python for Data Analysis?(为什么使用Python做数据分析) 这节我就不进行过多介绍了,Python近几年的发展势头是有目共睹的,尤其是在科学计算,数据处理,AI方面,否则大家也不会来看这本书了。 使用Python的一些优点 1. Python是一门胶水语言
阅读全文
摘要:CHAPTER 1 Preliminaries(预备知识) 1.1 What Is This Book About?(这本书是关于什么的) 这本书关心的是如何用Python对数据进行处理和清洗等操作。本书的目的是作为一个指南,讲解使用Python语言和它的一些处理数据的库和工具,这能让我们成为一个有
阅读全文
摘要:``` > head(airquality,10) Ozone Solar.R Wind Temp Month Day 1 41 190 7.4 67 5 1 2 36 118 8.0 72 5 2 3 12 149 12.6 74 5 3 4 18 313 11.5 62...
阅读全文
摘要:``` #sort:对向量进行排序;返回排好序的内容 #order:返回排好序的内容的下标/多个排序标准 > x sort(xv2,decreasing = TRUE) [1] 10 9 8 7 6 > order(xv2),] v1 v2 v3 v...
阅读全文
摘要:``` split根据因子或因子列表将 向量或其他对象分组 通常与lapply一起使用 split(参数):split(向量/列表/数据框,因子/因子列表) x x [1] 0.61008707 0.81746169 1.09859969 1.78134612 1.94262725 0.997605
阅读全文
摘要:``` 对向量的子集进行操作 tapply(参数):tapply(向量,因子/因子列表,函数/函数名) x f f [1] 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 Levels: 1 2 3 tapply(x,f,mean) 1 2 3 0.5004154 0.4044779 0
阅读全文
摘要:``` #mapply(函数/函数名,数据,函数相关的函数) > list(rep(1,4),rep(2,3),rep(3,2),rep(4,1)) [[1]] [1] 1 1 1 1 [[2]] [1] 2 2 2 [[3]] [1] 3 3 [[4]] [1] 4 > mapply(rep,1:4,4:1) [[1]] [1] 1 1 1 1 [[2]] [1] 2 2 2 [[...
阅读全文
摘要:``` #apply函数,沿着数组的某一维度处理数据 #例如将函数用于矩阵的行或列 #与for/while循环的效率相似,但只用一句话可以完成 #apply(参数):apply(数组,维度,函数/函数名) > x x [,1] [,2] [,3] [,4] [1,] 1 5 9 13 [2,] 2 6 10 14 [3,] 3 ...
阅读全文
摘要:``` lapply函数 可以循环处理列表中的每一个元素 lapply(参数):lapply(列表,函数/函数名,其他参数) 总是返回一个列表 sapply:简化结果 结果列表元素长度均为1,返回向量 结果列表元素长度相同且大于1,返回矩阵 str(lapply) function (X, FUN,
阅读全文
摘要:``` > x y x+y [1] 7 9 11 13 15 > x*y [1] 6 14 24 36 50 > x/y [1] 0.1666667 0.2857143 0.3750000 0.4444444 0.5000000 > x y x [,1] [,2] [1,] 1 3 [2,] 2 4 > y [,1] [,2] [1...
阅读全文
摘要:``` > x is.na(x) [1] FALSE TRUE FALSE TRUE FALSE > x[!is.na(x)] #找出不是缺失值 [1] 1 2 3 > x y z x[z] [1] 1 > y[z] [1] "a" > library(datasets) #import datasets > head(airquality) Ozone Solar.R...
阅读全文
摘要:``` 列表的子集 Subsetting List [[]] / [1] 1 2 3 4 x["id"] 两个函数作用相同 $ [1] 1 2 3 4 x[[1]
阅读全文
摘要:``` > x x v1 v2 v3 1 1 6 11 2 2 7 12 3 3 8 13 4 4 9 14 5 5 10 15 > x$v3[c(2,4)] x v1 v2 v3 1 1 6 11 2 2 7 NA 3 3 8 13 4 4 9 NA 5 5 10 15 > #找出第2列 > x[,2] [1] 6 7 8 9 10 > x[,"v2"] [1] 6 7 8...
阅读全文
摘要:> x <- matrix(1:6,nrow=2,ncol=3)> x [,1] [,2] [,3][1,] 1 3 5[2,] 2 4 6 > x[1,2][1] 3 > x[2,3][1] 6 > x[1,] #第一行的内容[1] 1 3 5 > x[,1] #第一列的内容[1] 1 2 > x
阅读全文
摘要:#日期 Date > x<-date()> class(x)[1] "character" > x2 <- Sys.Date()> class(x2)[1] "Date" > x3<-as.Date("2018-11-03")> class(x3)[1] "Date" > weekdays(x3)
阅读全文
摘要:#数据框 > df <- data.frame(id=c(1,2,3,4),name=c("a","b","c","d"),gender=c(TRUE,TRUE,FALSE,FALSE))> nrow(df) #4行[1] 4 > ncol(df) #3列[1] 3 > df2 <- data.fr
阅读全文
摘要:#缺失值 Missing Value > #NaN不可识别NA> x <- c(1,NA,2,NA,3) > is.na(x)[1] FALSE TRUE FALSE TRUE FALSE > is.nan(x)[1] FALSE FALSE FALSE FALSE FALSE > #NA可识别Na
阅读全文
摘要:#因子:分类数据#有序和无序#整数向量+标签label#Male/Female#常用于lm(),glm() > x <- factor(c("female","female","female","male"))> y <- factor(c("female","female","female","m
阅读全文
摘要:#列表list > l1 <- list("a",2,10L,3+4i,TRUE) #每个元素没有名字> l1[[1]][1] "a" [[2]][1] 2 [[3]][1] 10 [[4]][1] 3+4i [[5]][1] TRUE > l2 <- list(a=1,b=2,c=3) #列表中每
阅读全文
摘要:#矩阵Matrix 三个参数:内容(可省),行数,列数 > x <- matrix(1:6,nrow = 3,ncol = 2) #第一个是内容,第二个,第三个是行列> x[1,2][1] 4 > #维度属性> dim(x)[1] 3 2 > #查看矩阵的属性> attributes(x)$`dim
阅读全文
摘要:#Vector 向量的三种创建方法,两个参数:类型,长度 > x <- vector("character",length=10)> x1 <- 1:4> x2 <- c(1,2,3,4)> x3 <- c(TRUE,10,"a") #如果给向量赋值时元素类型不一致,R就会强制转换,将他们变为同一类
阅读全文
摘要:前言 MongoDB GUI 工具 PyMongo(同步) Motor(异步) 后记 前言 最近这几天准备介绍一下 Python 与三大数据库的使用,这是第一篇,首先来介绍 MongoDB 吧,,走起!! MongoDB GUI 工具 首先介绍一款 MongoDB 的 GUI 工具 Robo 3T,
阅读全文
摘要:1. 过程概述 Python先把代码(.py文件)编译成字节码,交给字节码虚拟机,然后虚拟机一条一条执行字节码指令,从而完成程序的执行。 2. 字节码 字节码在Python虚拟机程序里对应的是PyCodeObject对象。 .pyc文件是字节码在磁盘上的表现形式。 3. pyc文件 PyCodeOb
阅读全文
摘要:最近有不少同学在后台问我数据分析的职业发展相关,这里先列一个简易大纲。它更多是以我所在的互联网行业展开的。 入门和职业规划应该从两个角度考虑:领域和路线。 领域是不少新人常忽略的要素,其实数据分析不会脱离业务存在。你进入哪个行业,很大程度会决定你初期的技能树和技能点。譬如金融领域的风控模型、营销领域
阅读全文
摘要:我们一直说的思考能力,它是可以经培养和训练,后天习得的特质。这也意味着我们可以借助前辈们的经验,站在巨人的肩膀上眺望。 行业内常把这种可总结和复用的经验叫做 思考框架 。 一个好的思考框架,首先应该满足易学。如果大部分人都掌握不了,那它只是少部分人的术。让初读的人觉得优雅,能够用一句话解释清楚,就不
阅读全文
摘要:摘要: 我们平常在浏览网页中会遇到一些表格型的数据信息,除了表格本身体现的内容以外,可能还想透过表格背后再挖掘些有意思或者有价值的信息。这时,可用python爬虫来实现。本文采用pandas库中的read_html方法来快速准确地抓取网页中的表格数据。 由于本文中含有一些超链接,微信中无法直接打开,
阅读全文
摘要:查看版本 1.2.12 初步的调用方法为: 第一列是日期,后边的是各类价格,包括开盘价、最高价、收盘价等等,具体在Tushare里边都有详细介绍 调用Tushare抓取上证指数并作可视化 可以看到转去了上证指数的各类价格数据以及最后turnover的换手率。但是有一个问题就是数据的date的降序的,
阅读全文
摘要:前言 看本文前提是你有使用Shadowsocks的场景,而Shadowsocks则是一个上网代理,能为你提供科学上网(FQ)的服务,有服务器端和客户端,PAC代理模式是客户端的功能。如果你想科学上网,又不知道怎么办,请看 "《实战vultr搭建SSR+锐速——超速看youtube1080p》" 教你
阅读全文
摘要:前言 商业分析是一种很宽泛的能力,大到咨询公司、企业智囊,小到烧饼店铺老板、淘宝店主,或多或少都具备商业分析的能力。然而商场永远是未知多于已知,失败多于成功。商业一直在变,不变的唯有变化本身。从最近十多年看,最波澜壮阔的改变,是互联网汹涌地冲击各领域的商业模式,老旧的分析思维开始逐步被淘汰。 可能大
阅读全文
摘要:本文是数据科学家学习路径的的完结篇,算上《数据科学家成长指南(上)》和《数据科学家成长指南 (中)》,总篇幅应该五万字多一点。今天更新数据获取、数据清洗、工具三条线路的内容,文字较少。 —————— Data Ingestion 数据获取 这一块的概念比较混乱,主要是涉及太多的名词概念,很混淆,我大
阅读全文
摘要:在《 数据科学家成长指南(上) 》中已经介绍了基础原理、统计学、编程能力和机器学习的要点大纲,今天更新后续的第五、六、七条线路:自然语言处理、数据可视化、大数据。 准备好在新的一年,学习成为未来五年最性感的职位么。 —————— Text Mining / NLP 文本挖掘,自然语言处理。这是一个横
阅读全文
摘要:少年,你渴望力量么? 这才是真正的力量,年轻人!这是Swami Chandrasekaran所绘制的一张地图。名字叫MetroMap to Data Scientist(数据科学家之路),别称怎么死都不知道的。 数据科学家是近年火爆兴起的职位,它是数据分析师的后续进阶,融合了统计、业务、编程、机器学
阅读全文
摘要:最近有不少同学在后台问我数据分析的职业发展相关,这里先列一个简易大纲。它更多是以我所在的互联网行业展开的。 入门和职业规划应该从两个角度考虑:领域和路线。 领域是不少新人常忽略的要素,其实数据分析不会脱离业务存在。你进入哪个行业,很大程度会决定你初期的技能树和技能点。譬如金融领域的风控模型、营销领域
阅读全文
摘要:2018年已经过去十二分之一啦,大家惊不惊喜,意不意外? 春节假期临近,趁着小周末,想和大家谈一下2018年公众号内容的更新方向。不论大家因何而来,看到既是有缘。最初写文,一是自己的输出总结,二是希望能借此帮助到更多人。 好在,都没有违背初心。 个人不多谈。后台每每留言,大家在职场上的点滴进步,技能
阅读全文
摘要:本文是《如何七周成为数据分析师》的第七篇教程,如果想要了解写作初衷,可以先行阅读七周指南。温馨提示:如果您已经熟悉分析思维,大可不必再看这篇文章,或只挑选部分。 今天学习第三周内容:如何锻炼分析思维。 很多人的分析思维都是欠缺的,可它又在数据分析过程中无比重要,甚至它不限于数据领域,在产品和运营工作
阅读全文
摘要:本文是《如何七周成为数据分析师》的第八篇教程,如果想要了解写作初衷,可以先行阅读七周指南。温馨提示:如果您已经熟悉数据分析思维,大可不必再看这篇文章,或只挑选部分。 曾经有人问过我,什么是数据分析思维?如果分析思维是一种结构化的体现,那么数据分析思维在它的基础上再加一个准则: 不是我觉得,而是数据证
阅读全文
摘要:《七周数据分析师》总结 本文是通过对秦路的课程七周成为数据分析师进行整体总结与补充。 可以通过本文,对数据分析师这个职业有个基本的了解 课程详细资料请自行查询。 第一周:数据分析思维 1.核心数据分析思维 结构化 公式化 业务化 2.数据分析思维七大技巧 象限法 多维法 假设法 指数法 80/20法
阅读全文
摘要:1、必备 1 2 3 4 5 6 7 8 9 10 11 12 13 14 #### 第一波 #### def foo(): print 'foo' foo #表示是函数 foo() #表示执行foo函数 #### 第二波 #### def foo(): print 'foo' foo = lamb
阅读全文
摘要:本节大纲 迭代器&生成器 装饰器 基本装饰器 多参数装饰器 递归 算法基础:二分查找、二维数组转换 正则表达式 常用模块学习 作业:计算器开发 实现加减乘除及拓号优先级解析 用户输入 1 - 2 * ( (60-30 +(-40/5) * (9-2*5/3 + 7 /3*99/4*2998 +10
阅读全文