会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
乔丹爱打乒乓球
博客园
|
首页
|
新随笔
|
新文章
|
联系
|
订阅
|
管理
上一页
1
2
3
下一页
2019年7月17日
Python——pickle、csv文件操作
摘要: 一、Python pickle Python 的Pickle模块是将 Python对象存入 .pkl后缀的文件,在需要使用时将其迅速转换为Python对象。 避免了多次读取数据库的操作,提高了程序执行效率。 其大致分为3步:import 、存储和读取 import pickle 存储: import
阅读全文
posted @ 2019-07-17 15:40 HankCui
阅读(4815)
评论(0)
推荐(0)
编辑
2019年7月15日
Python virtualenv 所有环境配置 (linux、windows、vscode && vscode code-runner、jupyter-notebook)
摘要: 目录: 一、irtualenv使用 二、scode中配置virtualenv、python代码规范 三、ubuntu安装jupyter notebook 四、notebook中添加virtualenv环境 五、ubuntu中切换python版本 六、windows jupyter添加、删除virtu
阅读全文
posted @ 2019-07-15 20:47 HankCui
阅读(1358)
评论(0)
推荐(0)
编辑
Python I/O ————yaml文件操作
摘要: 这两天玩欧冠数据, 看到数据格式是.yml结尾的文件, 就查了下什么是yaml文件,Python怎么操作 yaml文件简述 yaml: Yet Another Markup Language, 一种基于Unicode容易阅读的、与脚本交互的用于表达资料序列的编程语言。类似于XML,但语法比XML简单
阅读全文
posted @ 2019-07-15 20:42 HankCui
阅读(996)
评论(0)
推荐(0)
编辑
numpy—————数组操作
摘要: 最近看了《利用Python进行数据分析》复习了一下Numpy里的一些操作,做一些基本函数使用的总结,避免后面忘了又瞎找,提高效率。 一、 数组生成 创建数组 # 1. 一维数组 import numpy as np num = [ 1, 2, 3, 4, 5] data = np.array(num
阅读全文
posted @ 2019-07-15 16:34 HankCui
阅读(281)
评论(0)
推荐(0)
编辑
ML———聚类算法之K-Means
摘要: 一、聚类模型简述。 聚类算法属于无监督学习,样本标记信息未知,通过学习数据本身的内在性质和规律,试图将数据集划分为若干个相似子集。 聚类模型区别于分类模型的主要有一下几点: 1. 数据集无标注,我不知道数据具体有几类,而是通过机器聚类告诉我这个数据集可以有几个类属性。 2. 在学习过程中无需调参。
阅读全文
posted @ 2019-07-15 16:07 HankCui
阅读(782)
评论(0)
推荐(0)
编辑
DataFrame————数据离散化处理(元素定位与离散化处理)
摘要: 以前老踩这坑,没总结。。。。。 数据集如下: 上面age列是根据出生日期得到的年龄,我要将age连续数据离散化,改成4个年龄段的,“20~25 离散化 为数值1, 26~30 离散化为数值2, 30~35离散化为数值3 和 >35 离散化数值4 ” 的四段。修改这些数据时,需要通过行列定位再来处理,
阅读全文
posted @ 2019-07-15 15:43 HankCui
阅读(562)
评论(0)
推荐(0)
编辑
2019年6月20日
windows 搭建和配置 hadoop + 踩过的坑
摘要: 一、配置步骤 hadoop官网 下载 tar.gz 镜像 下载安装winRAR , 管理员权限打开CMD, 切换到hadoop目录下, 输入start winrar x -y hadoop-3.1.2.tar.gz 执行解压(不下载安装winRAR, 用7zip解压会报错) 配置hadoop环境 J
阅读全文
posted @ 2019-06-20 21:11 HankCui
阅读(4475)
评论(2)
推荐(1)
编辑
2019年6月16日
Pandas -----简述 Series和DataFrame
摘要: http://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html pandas 10分钟入门教程 import pandas as pd #Series 和 DataFrame 都是 Pandas库的数据结构,使用前要导入
阅读全文
posted @ 2019-06-16 20:17 HankCui
阅读(1694)
评论(1)
推荐(1)
编辑
2019年6月12日
numpy 函数和用法总结、示例
摘要: 最近看了《利用Python进行数据分析》,又复习了一下Numpy里的一些操作,做一些基本函数使用的总结,避免后面忘了又瞎找,提高效率。 一、 数组生成 创建数组 # 1. 一维数组 import numpy as np num = [ 1,2,3,4,5] data = np.array(num)
阅读全文
posted @ 2019-06-12 16:25 HankCui
阅读(1218)
评论(0)
推荐(0)
编辑
2019年6月9日
分词————jieba分词(Python)
摘要: 要使用分词器来看下各个分词器对文本数据的分词效果,找了很多资料发现有推荐最多的开源分词工具就是结巴(jieba)分词和清华NLP分词库(thulac),下面简单说下中文分词器的jieba分词,只写了切词和用户自定义词典两种方法,其他的功能后面再补充: 一、分词 1 import jieba 2 st
阅读全文
posted @ 2019-06-09 14:14 HankCui
阅读(1300)
评论(0)
推荐(0)
编辑
上一页
1
2
3
下一页
公告