06 2020 档案
摘要:一.方法一 def update_data_batch(self,actions): """ 批量更新数据 :param actions: :return: """ item_list=[] for data in actions: dic = { "_index": self.index, "_t
阅读全文
摘要:一.联集合查询(mysql的跨表查询) 要主要搞清楚那个是主集合,哪个是被查集合 db.主集合.aggregate([ {$lookup: { from: "被查集合", localField: "主集合字段名", foreignField: "被查集合字段名", as: "保存查询的结果字段名”
阅读全文
摘要:一.分组操作 关键字$group 1.和distinct去重的比较 db.getCollection("2020062401").distinct('姓名') 返回的是一个列表 使用¥group分组 db.getCollection("2020062401").aggregate([ { $grou
阅读全文
摘要:一.聚合查询就是流式的对数据处理,分成各个阶段 1.当聚合查询只有一个阶段就和find没有差别,如: 如果聚合有至少一个阶段, 那么每一个阶段都是一个字典。 不同的阶段负责不同的事情, 每一个阶段有一个关键字。 有专门负责筛选数据的阶段“$match”, 有专门负责字段相关的阶段“$project”
阅读全文
摘要:一.嵌入式文档的查询 { "_id": 1, "user": { "name": "zhangsan", "user_id": 1, "age": 18 } } 直接用点取值就可以: db.getCollection('test').find({'user.age':{$gt:18}},{'_id'
阅读全文
摘要:步骤 1. scp -P xxxx user@xx.xx.xx.xx:aaa.txt . 2.输入密码 3.ctrl+z 暂停当前进程 4.bg(继续当前进程并切换到后台运行)
阅读全文
摘要:1、数据集下载 https://grouplens.org/datasets/movielens 参考地址 2、数据集下文件格式u.user用户属性文件 包含user.id用户ID gender性别 occupation职业 ZIP code邮编等属性,每个属性之间用|分割 u.item电影元数据
阅读全文
摘要:代码: import re import datetime from pyspark.sql import SparkSession from pyspark import SparkContext from elasticsearch import Elasticsearch spark=Spar
阅读全文
摘要:一.为mapping增加字段,但是新增的字段之前数据已经写进索引了,所以,要从新索引 post 127.0.0.1/index/_mapping { "properties":{ "name":{ "type":"keyword" } } } 二.重新索引数据 POST 127.0.0.1/inde
阅读全文
摘要:初尝 Python 3.7 引入了一个新的模块,这个模块就是今天要试探的 dataclass。dataclass 的用法和普通的类装饰器没有任何区别,它的作用是替换定义类的时候的:def __init__()我们来看看如何使用它 # 我们需要引入 dataclass 包 from dataclass
阅读全文
摘要:将下载或上传任务(一个文件或一个压缩包)人为的划分为几个部分,每一个部分采用一个线程进行上传或下载,如果碰到网络故障,可以从已经上传或下载的部分开始继续上传下载未完成的部分,而没有必要从头开始上传下载。用户可以节省时间,提高速度。 一、分割视频 1、分割的每个小部分的大小: size = 1024
阅读全文
摘要:一、摘要 使用 xlrd 模块打开带中文的excel文件时,会报错。 FileNotFoundError: [Errno 2] No such file or directory: 'xx.xlsx' 这个时候,就需要检测文件名,是否包含中文,及时return。 二、原理 中文字符的编码范围是: \
阅读全文
摘要:代码: from collections import Counter lis = [1, 2, 3, 4, 5, 2, 3, 1, 2, 2] cc = Counter(lis) print(type(cc)) # <class 'collections.Counter'> print(cc) #
阅读全文
摘要:1.tarfile模块的使用 import tarfile, os def tar_file(output_name, source_dir): """ 压缩文件,当直线打包而不需要压缩的时候只需要把mode传成"w" :param output_name:压缩后的文件名 :param sorce_
阅读全文
摘要:# 多重解包 # 字典合并 a = {'1': 1, '2': 2} b = {'2': 2, '3': 3} print({**a, **b}) # {'1': 1, '2': 2, '3': 3} 相同元素被合并 print({**a, '5': 5, **b, '6': 6}) # {'1':
阅读全文
摘要:Python 初学者在阅读一些 Python 开源项目时,常常会看到一个叫做__init__.py的文件。下图为著名的第三方库requests的源代码: 那么__init__.py有什么用呢?本文介绍它的两个用途。 精简导入路径 假设我们有两个文件main.py与writer.py,他们所在的文件结
阅读全文
摘要:对不少 Python 初学者来说,Python 导入其他模块的方式让他们很难理解。什么时候用import xxx?什么时候用from xxx import yyy?什么时候用from xxx.yyy import zzz?什么时候用from xxx import *? 这篇文章,我们来彻底搞懂这个问
阅读全文
摘要:在一日一技:实现函数调用结果的 LRU 缓存一文中,我们提到Python自带的LRU缓存lru_cache。通过这个装饰器可以非常轻松地实现缓存。 现在我们考虑下面这个应用场景:MongoDB中有100对id-用户名的对应关系,我从Redis中持续不断读取id,如果id能在MongoDB中找到对应关
阅读全文
摘要:在工程项目中,可能有一些函数调用耗时很长,但是又需要反复多次调用,并且每次调用时,相同的参数得到的结果都是相同的。在这种情况下,我们可能会使用变量或者列表来存放,例如: resp_1 = get_resp(param=1) resp_2 = get_resp(param=2) resp_3 = ge
阅读全文