摘要:
首先需要安装Java 下载安装并配置Spark 从官方网站Download Apache Spark™下载相应版本的spark,因为spark是基于hadoop的,需要下载对应版本的hadoop才行,这个页面有对hadoop的版本要求,点击Download Spark: spark-2.3.1-bi 阅读全文
摘要:
mongodb导入大文件的数据时,导入一小部分后,提示lost connect,失去连接。mongo文件有6.3G,网上查了一下,原来Mongo对单次处理好像有大小限制(16m),所以大文件会出问题,这应该是个Bug mongoimport 默认会10000条 为一个批量导入数据,解决方法是在导入的 阅读全文
摘要:
no_cursor_timeout=True参数的使用 默认拿到cursor后,十分钟内不取数倨或者十分钟内每把数据取完,再继续取,会有timeout的的报错(所以针对取了数据做了很耗时的操作,在这边最好加上这个参数) 实例: import pymongo handler = pymongo.Mon 阅读全文
摘要:
实例: with codecs.open(file=源文件,mode='命令',encoding='编(解)码方式') as 命名: 阅读全文
摘要:
MongoDB 版本 v4.0.7 系统 Win10 注意: 要为数据库创建用户,必须先切换到相应的数据库: 要为数据库创建用户,必须先切换到相应的数据库: 要为数据库创建用户,必须先切换到相应的数据库: #先切换 use 数据库名; #再创建 db.createUser({}) 超级管理员 设置 阅读全文
摘要:
一.模板宏的使用 macro_demo.py #!/usr/bin/env python # -*- coding: utf-8 -*- #author tom from flask import Flask,render_template app = Flask(__name__) @app.ro 阅读全文
摘要:
1.pip 2.压缩包(针对pip安装不上) 1.下载源码解压(压缩包有setup.py) 2.python setup.py install 3.****.whl文件 1.pip install ****.whl 阅读全文
摘要:
scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重规则(被调度器使用) pipeline - 数据持久化 scrapy-redis组件 1. URL去 阅读全文