摘要:
1. R语言 数据基础 - 观测(pbservation)、变量(variable)、数据矩阵(data matrix) - 变量的类型 1. 数值(quantitative):可以进行加减乘除求平均等运算 - 连续:可在给定区间取任意数值(无限) - 离散:在给定数值集合内取值(有限) 2. 分类 阅读全文
摘要:
1. 数据科学家需要具备的知识和技能 - Drew Conway: http://drewconway.com/the-lab/(substantive expertise:实质性的知识) - O'Reilly Strata Survey:http://radar.oreilly.com/ - ht 阅读全文
摘要:
A. 处理循环 - R不仅有for/while循环语句,还有更强大的实现循环的"一句话"函数 B. 排序 C. 总结数据信息 1. lapply:可以循环处理列表中的每一个元素,总是返回一个列表 - lapply(列表,函数/函数名,其他参数) - sapply:简化结果 a. 结果列表元素长度均为 阅读全文
摘要:
操纵数据:构建子集(subsetting) 原始数据(raw dataset) => 预处理后的数据(clean dataset) 1. 基本方法 - [ ]:提取一个或多个类型相同的元素 - [[ ]]:从列表或数据框中提取元素 - $:按名字从列表或数据框中提取元素 2. 矩阵的子集 3. 数据 阅读全文
摘要:
1. 对象的五种基本类型(classes of objects) - 字符(character) - 数值(numeric:real numbers) - 整数(integer) - 复数(complex):1+2i - 逻辑(logical:True / False) 2. 属性(attribut 阅读全文
摘要:
1. R 与 Rstudio 的获取与安装 - R 的获取与安装 a. https://cran.r-project.org/ => R for windows => base => Download R 3.3.2 for Windows - RStudio 的获取与安装 a. 集成开发环境(ID 阅读全文
摘要:
数据分析 => 结果报告 => 发布结果 1. 数据分析 1-1. 探索性数据分析 - 数据分析中的必要步骤 - 了解数据 - 作图 1-2. 统计推断 - 基于数据得出正式结论的过程 (不确定性) - 候选人A与候选人B谁会胜出 a. 结论+结论是错误的概率(小于等于5%则是成立的) - 药物A和 阅读全文
摘要:
gutenberg地址:http://www.gutenberg.org/ 前记:对象的作业是翻译还没有被翻译过的英文科幻小说。百度搜索无望,借助了伟大的python和伟大的gutenberg下载了1000多篇英文科幻小说。下一步希望能通过程序判断这些文章是否被翻译过。 学习到的内容: 1. 在寻找 阅读全文
摘要:
1. list 的复制: 1.1 直接复制: y = x ==> 复制的 list 的元素更改,原 list 中的元素也更改 1.2 列表赋值: y = list(x) ==> 赋值的 list 的元素更改,原 list 中的元素不更改 2. round() 函数:把一个数截取为小数点后的第n位 3 阅读全文
摘要:
爬取百度百科1000个页面的数据 1. 准备工作: 确定目标 => 分析目标(URL格式, 数据格式, 网页编码) => 编写代码 => 执行爬虫 1.1 链接分析: 进入百度百科“Python”词条页面:http://baike.baidu.com/view/21087.htm => 在链接位置右 阅读全文