上一页 1 ··· 7 8 9 10 11 12 13 14 15 下一页

2019年12月17日

摘要: 最近执行pyspark时,直接读取hive里面的数据,经常遇到几个问题: 1. java.io.IOException: Not a file —— 然而事实上文件是存在的,是 hdfs 的默认路径出了错,需要配置 --files 和 --conf。 2. pyspark.sql.utils.Ana 阅读全文
posted @ 2019-12-17 22:42 落日峡谷 阅读(5596) 评论(1) 推荐(0) 编辑

2019年12月11日

摘要: pyecharts的安装和地图库的安装可以参照 geo绘图:https://www.cnblogs.com/qi-yuan-008/p/12025123.html 直接进入 python的具体使用阶段: 首先是导入库和数据,数据可以换成自己想绘制的数据 from pyecharts.faker im 阅读全文
posted @ 2019-12-11 21:27 落日峡谷 阅读(20868) 评论(5) 推荐(1) 编辑
摘要: pyecharts是一种非常强大的绘图python库,绘制的图形非常好看,并且有代表性,不仅仅是地图,还可以绘制条形图、饼图、词云图等等。 # 安装方法 pip install pyecharts # 或者使用国内镜像: pip install pyecharts -i https://pypi.t 阅读全文
posted @ 2019-12-11 21:05 落日峡谷 阅读(18947) 评论(0) 推荐(0) 编辑

2019年12月6日

摘要: TfidfVectorizer函数主要用于,将文档(句子)等通过 tf-idf值来进行表示,也就是用一个tf-idf值的矩阵来表示文档(句子也可)。 from sklearn.feature_extraction.text import TfidfVectorizer 1. 其函数源代码很长,这里只 阅读全文
posted @ 2019-12-06 21:12 落日峡谷 阅读(3842) 评论(0) 推荐(0) 编辑
摘要: train_test_split是sklearn中用于划分数据集,即将原始数据集划分成测试集和训练集两部分的函数。 from sklearn.model_selection import train_test_split 1. 其函数源代码是: def train_test_split(*array 阅读全文
posted @ 2019-12-06 19:46 落日峡谷 阅读(12807) 评论(0) 推荐(0) 编辑

2019年12月5日

摘要: 分类的时候,当不同类别的样本量差异很大时,很容易影响分类结果,因此要么每个类别的数据量大致相同,要么就要进行校正。 sklearn的做法可以是加权,加权就要涉及到class_weight和sample_weight,当不设置class_weight参数时,默认值是所有类别的权值为1。 在python 阅读全文
posted @ 2019-12-05 21:44 落日峡谷 阅读(20704) 评论(0) 推荐(1) 编辑

2019年12月4日

摘要: 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。—— 用于匹配字符串 import re # 导入正则包 1. re.match方法:从字符串的起始位置匹配一个模式,如果起始位置匹配不成功的话则返回none。 re.match(pattern, string, fl 阅读全文
posted @ 2019-12-04 22:03 落日峡谷 阅读(480) 评论(0) 推荐(0) 编辑

2019年11月28日

摘要: 1. 通过pandas包 读csv:pd.read_csv import pandas as pd csv_data = pd.read_csv(r'test.csv', engine='python',encoding='utf-8') #此时得到的数据是pandas的dataframe格式数据, 阅读全文
posted @ 2019-11-28 21:14 落日峡谷 阅读(923) 评论(0) 推荐(0) 编辑
摘要: 1. 将当前时间转成字符串 strftime 方法,并输出 import datetime # 获取当前时间 datetime.datetime.now() print(datetime.datetime.now()) # 输出时间格式数据:2019-11-28 20:39:25.485711 no 阅读全文
posted @ 2019-11-28 20:48 落日峡谷 阅读(415) 评论(0) 推荐(0) 编辑
摘要: python解析命令行参数主要有三种方法:sys.argv、argparse解析、getopt解析 方法一:sys.argv —— 命令行执行:python test_命令行传参.py 1,2,3 1000 # test_命令行传参.py import sys def para_input(): p 阅读全文
posted @ 2019-11-28 20:27 落日峡谷 阅读(7113) 评论(0) 推荐(1) 编辑
上一页 1 ··· 7 8 9 10 11 12 13 14 15 下一页

导航