上一页 1 ··· 19 20 21 22 23 24 25 26 27 ··· 49 下一页
摘要: 首先需要安装Java 下载安装并配置Spark 从官方网站Download Apache Spark™下载相应版本的spark,因为spark是基于hadoop的,需要下载对应版本的hadoop才行,这个页面有对hadoop的版本要求,点击Download Spark: spark-2.3.1-bi 阅读全文
posted @ 2020-01-10 00:19 阿布_alone 阅读(2033) 评论(0) 推荐(0) 编辑
摘要: mongodb导入大文件的数据时,导入一小部分后,提示lost connect,失去连接。mongo文件有6.3G,网上查了一下,原来Mongo对单次处理好像有大小限制(16m),所以大文件会出问题,这应该是个Bug mongoimport 默认会10000条 为一个批量导入数据,解决方法是在导入的 阅读全文
posted @ 2020-01-05 01:30 阿布_alone 阅读(4650) 评论(1) 推荐(0) 编辑
摘要: no_cursor_timeout=True参数的使用 默认拿到cursor后,十分钟内不取数倨或者十分钟内每把数据取完,再继续取,会有timeout的的报错(所以针对取了数据做了很耗时的操作,在这边最好加上这个参数) 实例: import pymongo handler = pymongo.Mon 阅读全文
posted @ 2020-01-04 21:36 阿布_alone 阅读(675) 评论(0) 推荐(0) 编辑
摘要: 实例: with codecs.open(file=源文件,mode='命令',encoding='编(解)码方式') as 命名: 阅读全文
posted @ 2020-01-04 21:23 阿布_alone 阅读(78) 评论(0) 推荐(0) 编辑
摘要: MongoDB 版本 v4.0.7 系统 Win10 注意: 要为数据库创建用户,必须先切换到相应的数据库: 要为数据库创建用户,必须先切换到相应的数据库: 要为数据库创建用户,必须先切换到相应的数据库: #先切换 use 数据库名; #再创建 db.createUser({}) 超级管理员 设置 阅读全文
posted @ 2020-01-04 19:30 阿布_alone 阅读(2948) 评论(0) 推荐(0) 编辑
摘要: 一.模板宏的使用 macro_demo.py #!/usr/bin/env python # -*- coding: utf-8 -*- #author tom from flask import Flask,render_template app = Flask(__name__) @app.ro 阅读全文
posted @ 2019-11-24 23:12 阿布_alone 阅读(425) 评论(0) 推荐(0) 编辑
摘要: 1.pip 2.压缩包(针对pip安装不上) 1.下载源码解压(压缩包有setup.py) 2.python setup.py install 3.****.whl文件 1.pip install ****.whl 阅读全文
posted @ 2019-10-28 00:01 阿布_alone 阅读(439) 评论(0) 推荐(0) 编辑
摘要: scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重规则(被调度器使用) pipeline - 数据持久化 scrapy-redis组件 1. URL去 阅读全文
posted @ 2019-10-27 22:44 阿布_alone 阅读(421) 评论(0) 推荐(0) 编辑
摘要: 1.ag:比grep、ack更快的递归搜索文件内容 安装: 1:首先在linux创建个sh文件->ag.sh 2:在ag.sh里面输入如下内容并保存 3.对ag.sh改变权限 4:执行./ag.sh就会去安装了,完事后可以用ag "helloWord"命令去寻找所有文件中包含helloWord的文件 阅读全文
posted @ 2019-08-29 10:37 阿布_alone 阅读(497) 评论(1) 推荐(0) 编辑
摘要: 一.安装 二.使用 三.特点 阅读全文
posted @ 2019-08-29 09:46 阿布_alone 阅读(220) 评论(0) 推荐(0) 编辑
上一页 1 ··· 19 20 21 22 23 24 25 26 27 ··· 49 下一页
TOP