2019 年 12月随笔档案 - 落日峡谷

sublime text3格式化json，格式化sql代码

摘要：1. 格式化json文本第一步：使用 View->show console (中文是：视图->显示/隐藏控制台) 或者 (Ctrl+`)快捷键来打开控制台，复制以下代码，并回车，之后重启sublime—— 具体见：https://packagecontrol.io/installation#st3 阅读全文

posted @ 2019-12-31 17:02 落日峡谷阅读(6965) 评论(0) 推荐(0) 编辑

python加入进度条：tqdm 和 progressbar

摘要：这里主要是有两个方法：tqdm 和 progressbar 1. 首先是tqdm方法： from time import sleep from tqdm import tqdm for i in tqdm(range(10)): # 需要循环或者多次执行的代码 print('\n the value 阅读全文

posted @ 2019-12-31 16:40 落日峡谷阅读(3070) 评论(0) 推荐(0) 编辑

python的map和reduce函数

摘要：map函数时python的高级内置函数语法为：map(function, iterable, ...) 参数：function -- 函数iterable -- 一个或多个序列将function作用于iterable序列中的每一个元素，并将调用的结果返回主要是为了并行运算，非常高效 1. 一个阅读全文

posted @ 2019-12-20 21:51 落日峡谷阅读(1064) 评论(0) 推荐(0) 编辑

python的lambda表达式

摘要：lambda表达式：匿名函数，它与显式函数def不一样，实质上可以当做一个表达式。它是为处理简单的函数而出现的，其参数可选，返回对象，可以被def嵌套使用。 1. 作为表达式 # 1. 作为表达式 add_func = lambda x,y : x+y # x,y相当于传参，x+y属于函数体，返回阅读全文

posted @ 2019-12-20 21:30 落日峡谷阅读(1261) 评论(0) 推荐(1) 编辑

python的推导式 —— 列表推导式、集合和字典推导式

摘要：python的推导式是用于快速处理数据的方法。主要有：列表推导式、集合推导式和字典推导式 import time import numpy as np 列表推导式： 1. 速度快 t1 = time.time() aa = [ii for ii in range(1000000) if ii % 阅读全文

posted @ 2019-12-20 21:23 落日峡谷阅读(958) 评论(0) 推荐(0) 编辑

Pyspark中遇到的 java.io.IOException: Not a file 和 pyspark.sql.utils.AnalysisException: 'Table or view not found

摘要：最近执行pyspark时，直接读取hive里面的数据，经常遇到几个问题： 1. java.io.IOException: Not a file —— 然而事实上文件是存在的，是 hdfs 的默认路径出了错，需要配置 --files 和 --conf。 2. pyspark.sql.utils.Ana 阅读全文

posted @ 2019-12-17 22:42 落日峡谷阅读(5761) 评论(1) 推荐(0) 编辑

pyecharts绘制map地图

摘要：pyecharts的安装和地图库的安装可以参照 geo绘图：https://www.cnblogs.com/qi-yuan-008/p/12025123.html 直接进入 python的具体使用阶段：首先是导入库和数据，数据可以换成自己想绘制的数据 from pyecharts.faker im 阅读全文

posted @ 2019-12-11 21:27 落日峡谷阅读(20988) 评论(5) 推荐(1) 编辑

pyecharts绘制geo地图

摘要：pyecharts是一种非常强大的绘图python库，绘制的图形非常好看，并且有代表性，不仅仅是地图，还可以绘制条形图、饼图、词云图等等。 # 安装方法 pip install pyecharts # 或者使用国内镜像： pip install pyecharts -i https://pypi.t 阅读全文

posted @ 2019-12-11 21:05 落日峡谷阅读(19227) 评论(0) 推荐(0) 编辑

sklearn.feature_extraction.text 的TfidfVectorizer函数

摘要：TfidfVectorizer函数主要用于，将文档（句子）等通过 tf-idf值来进行表示，也就是用一个tf-idf值的矩阵来表示文档（句子也可）。 from sklearn.feature_extraction.text import TfidfVectorizer 1. 其函数源代码很长，这里只阅读全文

posted @ 2019-12-06 21:12 落日峡谷阅读(3975) 评论(0) 推荐(0) 编辑

sklearn.model_selection 的train_test_split方法和参数

摘要：train_test_split是sklearn中用于划分数据集，即将原始数据集划分成测试集和训练集两部分的函数。 from sklearn.model_selection import train_test_split 1. 其函数源代码是： def train_test_split(*array 阅读全文

posted @ 2019-12-06 19:46 落日峡谷阅读(13010) 评论(0) 推荐(0) 编辑

sklearn的class_weight设置为'balanced'的计算方法

摘要：分类的时候，当不同类别的样本量差异很大时，很容易影响分类结果，因此要么每个类别的数据量大致相同，要么就要进行校正。 sklearn的做法可以是加权，加权就要涉及到class_weight和sample_weight，当不设置class_weight参数时，默认值是所有类别的权值为1。在python 阅读全文

posted @ 2019-12-05 21:44 落日峡谷阅读(21272) 评论(0) 推荐(1) 编辑

python正则表达式

摘要：正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。—— 用于匹配字符串 import re # 导入正则包 1. re.match方法：从字符串的起始位置匹配一个模式，如果起始位置匹配不成功的话则返回none。 re.match(pattern, string, fl 阅读全文

posted @ 2019-12-04 22:03 落日峡谷阅读(488) 评论(0) 推荐(0) 编辑

落日峡谷

12 2019 档案

sublime text3格式化json，格式化sql代码

python加入进度条：tqdm 和 progressbar

python的map和reduce函数

python的lambda表达式

python的推导式 —— 列表推导式、集合和字典推导式

Pyspark中遇到的 java.io.IOException: Not a file 和 pyspark.sql.utils.AnalysisException: 'Table or view not found

pyecharts绘制map地图

pyecharts绘制geo地图

sklearn.feature_extraction.text 的TfidfVectorizer函数

sklearn.model_selection 的train_test_split方法和参数

sklearn的class_weight设置为'balanced'的计算方法

python正则表达式

公告

导航

统计

搜索

常用链接

我的标签

积分与排名

随笔分类 (171)

随笔档案 (150)

阅读排行榜

评论排行榜

推荐排行榜

最新评论