欢迎来到贱贱的博客

扩大
缩小

随笔分类 -  python analyze

python数据分析5 数据转换
摘要:1数据转换 数据转换时数据准备的重要环节,它通过数据平滑,数据聚集,数据概化,规范化等凡是将数据转换成适用于数据挖掘的形式 1.1 数据平滑 去除数据中的噪声,将连续数据离散化。这里可以采用分箱、聚类和回归的方式进行数据平滑 1,2 数据聚集 对数据进行汇总,在sql中也有一些聚集函数比如Max求最 阅读全文

posted @ 2019-12-12 11:21 L的存在 阅读(446) 评论(0) 推荐(0) 编辑

python数据分析4之自动采集数据
摘要:1 数据采集的重要性 数据采集是数据挖掘的基础,没有数据,挖掘也没有意义。很多时候,我们拥有多少数据源,多少数据量,以及数据质量如何,将决定我们挖掘产出的成果会怎样 2 四类采集方式 3 如何使用开放是数据源 4 爬虫方式 (1) 使用request爬取内容。(2)使用xpath解析内容,可以通过元 阅读全文

posted @ 2019-12-07 13:34 L的存在 阅读(2503) 评论(0) 推荐(0) 编辑

python数据分析3之标签化
摘要: 阅读全文

posted @ 2019-12-07 13:28 L的存在 阅读(374) 评论(0) 推荐(0) 编辑

python数据分析2之numpy
摘要:源代码 1 # -*- coding: utf-8 -*- 2 """ 3 Spyder Editor 4 5 This is a temporary script file. 6 """ 7 8 import numpy as np 9 a = np.array([1, 2, 3]) 10 b = 阅读全文

posted @ 2019-11-28 15:21 L的存在 阅读(264) 评论(0) 推荐(0) 编辑

python数据分析1
摘要:1 数据分析三要素 从下图可以清晰看出 感觉不怎么方便把图放上去,如果需要原图的私信我吧。 2 所谓修炼指南 (1)从思维到工具再到实践 (2)只有把只是抓换为自己的语言,才真正编程我们自己的东西 3 两点原则 (1)尽量不重复造轮子 一个模型有很多相关的类库 (2)工具决定效率 选择成熟的工具,因 阅读全文

posted @ 2019-11-26 21:04 L的存在 阅读(178) 评论(0) 推荐(0) 编辑

5 pyspark学习---Broadcast&Accumulator&sparkConf
摘要:1 对于并行处理,Apache Spark使用共享变量。当驱动程序将任务发送给集群上的执行者时,集群中的每个节点上都有一个共享变量的副本,这样就可以用于执行任务了。 2 两种支持得类型 (1)Broadcast 广播变量保存所有节点数据备份。该变量缓存在所有机器上,而不是在有任务的机器上发送。下面的 阅读全文

posted @ 2018-04-03 10:45 L的存在 阅读(2714) 评论(0) 推荐(1) 编辑

4 pyspark学习---RDD
摘要:开始新的东西,其实很多操作在第二篇的时候就有所介绍啦。在这里继续学习一遍加深一下印象。 1关于RDD (1) RDD Resilient Distributed Dataset,弹性分布式数据集。这些元素在多个节点上运行和操作,以便在集群上进行并行处理。 (2)RDD是弹性得。 比如map操作,可以 阅读全文

posted @ 2018-04-03 10:10 L的存在 阅读(1706) 评论(0) 推荐(0) 编辑

3 pyspark学习---sparkContext概述
摘要:1 Tutorial Spark本身是由scala语言编写,为了支持py对spark的支持呢就出现了pyspark。它依然可以通过导入Py4j进行RDDS等操作。 2 sparkContext (1)sparkContext是spark运用的入口点,当我们运行spark的时候,驱动启动同时上下文也开 阅读全文

posted @ 2018-04-03 09:48 L的存在 阅读(2212) 评论(0) 推荐(0) 编辑

2 pyspark学习----基本操作
摘要:1 spark的python环境部署可以参照上面一篇哟。http://www.cnblogs.com/lanjianhappy/p/8705974.html 2 pyspark的基本操作。 加油! 阅读全文

posted @ 2018-04-03 09:12 L的存在 阅读(1049) 评论(0) 推荐(0) 编辑

1 python----pycharm本地部署spark
摘要:下图相关工具连接 链接:https://pan.baidu.com/s/115XWf_Fc1yMiJytKJQXnFQ 密码:3jvr 好了,加油哟! 阅读全文

posted @ 2018-04-03 09:08 L的存在 阅读(505) 评论(0) 推荐(0) 编辑

python--flask学习1
摘要:1 windows/unix得安装 http://www.pythondoc.com/flask-mega-tutorial/helloworld.html http://www.pythondoc.com/flask/ 2 第一个永远得helloword 然后浏览器 http://127.0.0. 阅读全文

posted @ 2018-03-30 22:01 L的存在 阅读(239) 评论(0) 推荐(0) 编辑

python模块datetime
摘要:1. 日期输出格式化 datetime => string import datetime now = datetime.datetime.now() now.strftime('%Y-%m-%d %H:%M:%S') 输出 '2015-04-07 19:11:21' strftime是dateti 阅读全文

posted @ 2017-10-13 22:11 L的存在 阅读(201) 评论(0) 推荐(0) 编辑

利用python数据分析panda学习笔记之基本功能
摘要:1 重新生成索引 如果某个索引值不存在就引入缺失值 a使用method的ffill可以实现前向值填充,效果如下 b:对于dataframe使用reindex可以同时修改行列索引,如果仅传入一个序列那么如下 c:使用colunms重新索引列 d:同时插入行列,但是插值只能按行应用 reindex的参数 阅读全文

posted @ 2017-08-21 11:53 L的存在 阅读(15606) 评论(0) 推荐(0) 编辑

利用python数据分析panda学习笔记之DataFrame
摘要:2 DataFrame a:通过传入一个等长的列表构成DataFrame 自动加上索引 b:指定顺序序列(之前是按照默认排序) c:传入数据的时候列不存在 那么就是NAN d:从DataFrame中获取一个series e:赋值方式修改列 f:赋值的时候如果传入一个Series,那么可以进行精确的匹 阅读全文

posted @ 2017-08-20 03:32 L的存在 阅读(1989) 评论(0) 推荐(0) 编辑

利用python数据分析panda学习笔记之Series
摘要:1 Series a:类似一维数组的对象,每一个数据与之相关的数据标签组成 b:生成的左边为索引,不指定则默认从0开始。 c:可以通过values和index属性获取数组的表示形式和索引对象 d:跟定索引值 e:通过索引值得到值 f:如果数据在python字典中 可以直接通过字典来创建Series 阅读全文

posted @ 2017-08-20 02:39 L的存在 阅读(4829) 评论(0) 推荐(0) 编辑

Numpy学习笔记<1>
摘要:1 numpy的ndarray:一种多维数组 a:创建ndarry 注意:np.array会尝试为新建的数组一个合适的数据类型 保存在dtype中 b:嵌套序列转换为一个多维数组 c:输出数据类型 d:创建一个全是0的数组 e:创建一个全是0的3*6的数组 2 ndarray的数据类型 a:创建的时 阅读全文

posted @ 2017-08-18 17:39 L的存在 阅读(351) 评论(0) 推荐(0) 编辑

Ipython使用总结1
摘要:1 安装了Anaconda就会发现安装了很多组件。也就省去了安装包时候的依赖问题 https://www.continuum.io/downloads 2 Ipython基础 (1)启动: win+R 启动cmd 输入Ipython 回车 (2)Tab键的自动补全功能(找函数,之前的命令,或者是模块 阅读全文

posted @ 2017-08-18 16:30 L的存在 阅读(589) 评论(0) 推荐(0) 编辑

python常用第三方库(转载)
摘要:Python标准库与第三方库详解(转载) 转载地址: http://www.codeweblog.com/python%e6%a0%87%e5%87%86%e5%ba%93%e4%b8%8e%e7%ac%ac%e4%b8%89%e6%96%b9%e5%ba%93%e8%af%a6%e8%a7%a3/ 阅读全文

posted @ 2017-08-16 18:36 L的存在 阅读(998) 评论(0) 推荐(0) 编辑

python数据分析笔记中panda(3)
摘要:1 按照空格将一列的内容分为两列 2 截图 阅读全文

posted @ 2017-08-14 19:29 L的存在 阅读(437) 评论(0) 推荐(0) 编辑

python数据分析笔记中panda(2)
摘要:1 将手机号码分开为运营商,地区和号码段 2 下面看看各个表 (1)df (2)bands (3)area (4)nums 阅读全文

posted @ 2017-08-14 19:23 L的存在 阅读(527) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示