09 2017 档案
摘要:原文: 为什么要增加随机请求头:更好地伪装浏览器,防止被 Ban。 如何在每次请求时,更换不同的 user_agent,Scrapy 使用 Middleware 即可 Spider 中间件 (Middleware) 下载器中间件是介入到 Scrapy 的 spider 处理机制的钩子框架,可以添加代
阅读全文
摘要:参考:http://www.yiibai.com/mongodb/mongodb_drop_collection.html http://www.cnblogs.com/zhouxuchen/p/5544227.html pymongo的一些操作: 启动 远程连接的时候, 配置mongodb.con
阅读全文
摘要:标题就凸显了尴尬,是的,本地(ubuntu16.04)自带的mongodb太老了,想要装最新版的 卸载: 然后下载新版的mongodb: https://mirrors.tuna.tsinghua.edu.cn/mongodb/apt/ubuntu/dists/xenial/mongodb-org/
阅读全文
摘要:1.json文件中文解码: #!/usr/bin/python #coding=utf-8 #author=dahu import json with open('huxiu.json','r') as f: data=json.load(f) print data[0]['title'] for
阅读全文
摘要:官网: https://virtualenv.pypa.io/en/latest/installation.html#via-pip virtualenv通过创建独立Python开发环境的工具, 来解决依赖、版本问题 安装: python -m pip install --user virtuale
阅读全文
摘要:文章来源,wait的使用效果还是不错的 最近在使用shell做一些部署工作,在使用过程中,效率一直不高。想提高效率,经过分析发现,并不是所有操作都是需要串行的,一些操作是可以进行并行操作的。经过学习,shell里面也是可以进行多线程编程的,而且十分方便,同时,wait命令可以进行shell的多线程同
阅读全文
摘要:参考原文 有两种方式: 1. command & : 后台运行,你关掉终端会停止运行 2. nohup command & : 后台运行,你关掉终端也会继续运行 一、 简介 Linux/Unix 区别于微软平台最大的优点就是真正的多用户,多任务。因此在任务管理上也有别具特色的管理思想。我们知道,在
阅读全文
摘要:算法实现: 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法 支持三种分词模式: a,精确模式,试图将句子最精确地
阅读全文
摘要:方法一: 如果用户具有sudo权限,那么直接可以运行如下命令: #sudo su root #passwd #更改密码 或者直接运行sudo passwd root命令就可以直接更改root密码。 有关sudo su的区别: 1.共同点:都是root用户的权限; 2.不同点:su仅仅取得root权限
阅读全文