摘要:1. 格式化json文本 第一步:使用 View->show console (中文是:视图->显示/隐藏控制台) 或者 (Ctrl+`)快捷键来打开控制台,复制以下代码,并回车,之后重启sublime—— 具体见:https://packagecontrol.io/installation#st3
阅读全文
摘要:这里主要是有两个方法:tqdm 和 progressbar 1. 首先是tqdm方法: from time import sleep from tqdm import tqdm for i in tqdm(range(10)): # 需要循环或者多次执行的代码 print('\n the value
阅读全文
摘要:map函数时python的高级内置函数 语法为:map(function, iterable, ...) 参数:function -- 函数iterable -- 一个或多个序列 将function作用于iterable序列中的每一个元素,并将调用的结果返回 主要是为了并行运算,非常高效 1. 一个
阅读全文
摘要:lambda表达式:匿名函数,它与显式函数def不一样,实质上可以当做一个表达式。 它是为处理简单的函数而出现的,其参数可选,返回对象,可以被def嵌套使用。 1. 作为表达式 # 1. 作为表达式 add_func = lambda x,y : x+y # x,y相当于传参,x+y属于函数体,返回
阅读全文
摘要:python的推导式是用于快速处理数据的方法。 主要有:列表推导式、集合推导式和字典推导式 import time import numpy as np 列表推导式: 1. 速度快 t1 = time.time() aa = [ii for ii in range(1000000) if ii %
阅读全文
摘要:最近执行pyspark时,直接读取hive里面的数据,经常遇到几个问题: 1. java.io.IOException: Not a file —— 然而事实上文件是存在的,是 hdfs 的默认路径出了错,需要配置 --files 和 --conf。 2. pyspark.sql.utils.Ana
阅读全文
摘要:pyecharts的安装和地图库的安装可以参照 geo绘图:https://www.cnblogs.com/qi-yuan-008/p/12025123.html 直接进入 python的具体使用阶段: 首先是导入库和数据,数据可以换成自己想绘制的数据 from pyecharts.faker im
阅读全文
摘要:pyecharts是一种非常强大的绘图python库,绘制的图形非常好看,并且有代表性,不仅仅是地图,还可以绘制条形图、饼图、词云图等等。 # 安装方法 pip install pyecharts # 或者使用国内镜像: pip install pyecharts -i https://pypi.t
阅读全文
摘要:TfidfVectorizer函数主要用于,将文档(句子)等通过 tf-idf值来进行表示,也就是用一个tf-idf值的矩阵来表示文档(句子也可)。 from sklearn.feature_extraction.text import TfidfVectorizer 1. 其函数源代码很长,这里只
阅读全文
摘要:train_test_split是sklearn中用于划分数据集,即将原始数据集划分成测试集和训练集两部分的函数。 from sklearn.model_selection import train_test_split 1. 其函数源代码是: def train_test_split(*array
阅读全文
摘要:分类的时候,当不同类别的样本量差异很大时,很容易影响分类结果,因此要么每个类别的数据量大致相同,要么就要进行校正。 sklearn的做法可以是加权,加权就要涉及到class_weight和sample_weight,当不设置class_weight参数时,默认值是所有类别的权值为1。 在python
阅读全文
摘要:正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。—— 用于匹配字符串 import re # 导入正则包 1. re.match方法:从字符串的起始位置匹配一个模式,如果起始位置匹配不成功的话则返回none。 re.match(pattern, string, fl
阅读全文