落日峡谷

Pyspark中遇到的 java.io.IOException: Not a file 和 pyspark.sql.utils.AnalysisException: 'Table or view not found

摘要：最近执行pyspark时，直接读取hive里面的数据，经常遇到几个问题： 1. java.io.IOException: Not a file —— 然而事实上文件是存在的，是 hdfs 的默认路径出了错，需要配置 --files 和 --conf。 2. pyspark.sql.utils.Ana 阅读全文

posted @ 2019-12-17 22:42 落日峡谷阅读(5596) 评论(1) 推荐(0) 编辑

pyecharts绘制map地图

摘要： pyecharts的安装和地图库的安装可以参照 geo绘图：https://www.cnblogs.com/qi-yuan-008/p/12025123.html 直接进入 python的具体使用阶段：首先是导入库和数据，数据可以换成自己想绘制的数据 from pyecharts.faker im 阅读全文

posted @ 2019-12-11 21:27 落日峡谷阅读(20868) 评论(5) 推荐(1) 编辑

pyecharts绘制geo地图

摘要： pyecharts是一种非常强大的绘图python库，绘制的图形非常好看，并且有代表性，不仅仅是地图，还可以绘制条形图、饼图、词云图等等。 # 安装方法 pip install pyecharts # 或者使用国内镜像： pip install pyecharts -i https://pypi.t 阅读全文

posted @ 2019-12-11 21:05 落日峡谷阅读(18947) 评论(0) 推荐(0) 编辑

sklearn.feature_extraction.text 的TfidfVectorizer函数

摘要： TfidfVectorizer函数主要用于，将文档（句子）等通过 tf-idf值来进行表示，也就是用一个tf-idf值的矩阵来表示文档（句子也可）。 from sklearn.feature_extraction.text import TfidfVectorizer 1. 其函数源代码很长，这里只阅读全文

posted @ 2019-12-06 21:12 落日峡谷阅读(3842) 评论(0) 推荐(0) 编辑

sklearn.model_selection 的train_test_split方法和参数

摘要： train_test_split是sklearn中用于划分数据集，即将原始数据集划分成测试集和训练集两部分的函数。 from sklearn.model_selection import train_test_split 1. 其函数源代码是： def train_test_split(*array 阅读全文

posted @ 2019-12-06 19:46 落日峡谷阅读(12807) 评论(0) 推荐(0) 编辑

sklearn的class_weight设置为'balanced'的计算方法

摘要：分类的时候，当不同类别的样本量差异很大时，很容易影响分类结果，因此要么每个类别的数据量大致相同，要么就要进行校正。 sklearn的做法可以是加权，加权就要涉及到class_weight和sample_weight，当不设置class_weight参数时，默认值是所有类别的权值为1。在python 阅读全文

posted @ 2019-12-05 21:44 落日峡谷阅读(20704) 评论(0) 推荐(1) 编辑

python正则表达式

摘要：正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。—— 用于匹配字符串 import re # 导入正则包 1. re.match方法：从字符串的起始位置匹配一个模式，如果起始位置匹配不成功的话则返回none。 re.match(pattern, string, fl 阅读全文

posted @ 2019-12-04 22:03 落日峡谷阅读(480) 评论(0) 推荐(0) 编辑

python读写csv文件和 OSError: Initializing from file failed

摘要： 1. 通过pandas包读csv：pd.read_csv import pandas as pd csv_data = pd.read_csv(r'test.csv', engine='python',encoding='utf-8') #此时得到的数据是pandas的dataframe格式数据，阅读全文

posted @ 2019-11-28 21:14 落日峡谷阅读(923) 评论(0) 推荐(0) 编辑

python的time模块和datetime模块

摘要： 1. 将当前时间转成字符串 strftime 方法，并输出 import datetime # 获取当前时间 datetime.datetime.now() print(datetime.datetime.now()) # 输出时间格式数据：2019-11-28 20:39:25.485711 no 阅读全文

posted @ 2019-11-28 20:48 落日峡谷阅读(415) 评论(0) 推荐(0) 编辑

python解析传入的命令行参数 argv

摘要： python解析命令行参数主要有三种方法：sys.argv、argparse解析、getopt解析方法一：sys.argv —— 命令行执行：python test_命令行传参.py 1,2,3 1000 # test_命令行传参.py import sys def para_input(): p 阅读全文

posted @ 2019-11-28 20:27 落日峡谷阅读(7113) 评论(0) 推荐(1) 编辑

公告

导航