python2: Python 爬虫入门六之 Cookie 的使用 python3: Python3 网络爬虫 (六):Python3 使用 Cookie - 模拟登陆获取妹子联系方式 python 的urllib 和 urllib2的用法与区别: urllib 与 urllib2 的学习总结 (p Read More
posted @ 2017-11-16 19:08 dahu1 Views(597) Comments(0) Diggs(0) Edit
1未区分环境 当然,执行的时候也是 这样就可以选择是哪个python了 [python] 自问自答:python -m 参数? 其实,python在终端执行脚本时,就已经选定了python解释器了,如,python t1.py 或 python2 t1.py ,一般情况下,python默认是Pyth Read More
posted @ 2017-11-14 23:36 dahu1 Views(1041) Comments(0) Diggs(0) Edit
方式一: 下载地址:http://redis.io/download,下载最新文档版本。 本教程使用的最新文档版本为 2.8.17,下载并安装: $ wget http://download.redis.io/releases/redis-2.8.17.tar.gz $ tar xzf redis- Read More
posted @ 2017-11-14 19:56 dahu1 Views(3624) Comments(0) Diggs(0) Edit
技巧 74: crontab 书上的这一段我删了,重写一下,用的是ubuntu 16.04系统 参考 每天一个 linux 命令(50):crontab 命令 crond 服务 安装 crontab: 服务操作说明: 注意,这里ubuntu里都是cron,可能别的系统是crond,如何查看? ls Read More
posted @ 2017-11-14 10:16 dahu1 Views(170) Comments(0) Diggs(0) Edit
如果你经常使用命令行,那么有效的使用命令历史机制将会使效率获得极大提升。事实上,一旦你掌握了我在下面给出的 15 个例子, 你就会发现使用命令行将更有乐趣 是吗?我学一学呢 技巧 50:使用 HISTTIMEFORMAT 在历史中显示 TIMESTAMP 通常情况下,当你在命令行中键入 histor Read More
posted @ 2017-11-10 16:19 dahu1 Views(268) Comments(0) Diggs(0) Edit
PS1——默认提示符 看完这一章,我心里若干个卧槽。。 如下所示, 可以通过修改 Linux 下的默认提示符,使其更加实用。在下面的例子中,默认的 PS1的值是“ \s-\v\$”,显示出了 shell 的名称的版本。 我们通过修改,可以使其显示用户名、主机名和当前工作目录。 本例中 PS1 使用的 Read More
posted @ 2017-11-10 14:38 dahu1 Views(225) Comments(0) Diggs(0) Edit
stat 命令 stat 命令那个可以用来查看文件或者文件系统的状态和属性。显示一个文件或目录的属性 使用 -f 参数查看系统文件得某些属性 diff 命令 输出到桌面,也可以考虑vimdiff diff 命令可以用来比较两个文件并显示差异。但是输出结果不是很容易阅读。语法: diff [参数] 文 Read More
posted @ 2017-11-10 11:10 dahu1 Views(222) Comments(0) Diggs(0) Edit
禁止标准输出和错误信息的输出 当我们调试 shell 脚本的时候,我们往往不希望看到标准输出和标准错误的信息。我们可以使用/dev/nulll 来禁止标准错误的信息。 将标准输出重定向到/dev/null当你调试 shell 脚本的时候不想看输出,只想看错误信息的时候,这个命令会非常有用。 用“2> Read More
posted @ 2017-11-09 23:59 dahu1 Views(302) Comments(0) Diggs(0) Edit
感觉挨个按着作者来的太蠢了,我还是放自己觉得不错的东西把 用特定格式显示当前时间 以下是 date 命令的不同的格式选项, 各选项所代表含义如下: %D 日期(月/日/年) %d 一个月中的第几天 (01..31)%m 月份 (01..12)%y 年份的后两位 (00..99)%a 当前语言下星期的 Read More
posted @ 2017-11-09 23:45 dahu1 Views(357) Comments(0) Diggs(0) Edit
本系列来源于《linux 101 hacks》,作者还写了其他101 hacks教程,读了几章,觉得技巧都还不错,很实用,做个总结收藏。 cdpath 设置基目录 如果希望设置永久有效, 可以将 export CDPATH=/etc 写入 ~/.bash_profile 。与环境变量 PATH 相似 Read More
posted @ 2017-11-09 23:22 dahu1 Views(186) Comments(0) Diggs(0) Edit
其实很简单,就是想要存储的位置发生改变。直接看例子,然后触类旁通。 以大众点评 评论的内容为例 ,位置:http://www.dianping.com/shop/77489519/review_more?pageno=1 数据存储形式由A 变成B A: 展开的话这样子: B: 本质上看,就是多个相同 Read More
posted @ 2017-11-01 23:08 dahu1 Views(1048) Comments(0) Diggs(0) Edit
经常用到top命令,也就简单看看进程多不多,卡不卡, 这次在网上找到一个归纳总结的,以供参考。 简介 top 命令是 Linux 下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于 Windows 的任务管理器。 top 显示系统当前的进程和其他状况, 是一个动态显示过程, 即可 Read More
posted @ 2017-10-23 15:32 dahu1 Views(237) Comments(0) Diggs(0) Edit
我们写程序的时候一般都会写程序包的时候,很少硬编码写在一起,这有个很好的配置文件包。 参考 ConfigParser 和 ConfigParser 的使用 一、ConfigParser 简介 ConfigParser 是用来读取配置文件的包。配置文件的格式如下:中括号 “[]” 内包含的为 sect Read More
posted @ 2017-10-19 11:11 dahu1 Views(363) Comments(0) Diggs(0) Edit
原文请参考 Scrapy 爬虫入门教程十三 Settings(设置), 讲的很详细 官网参考 Settings 设置 Scrapy 设置允许您自定义所有 Scrapy 组件的行为,包括核心,扩展,管道和爬虫本身。 设置的基础结构提供了键值映射的全局命名空间,代码可以使用它从中提取配置值。可以通过不同 Read More
posted @ 2017-10-13 17:40 dahu1 Views(591) Comments(0) Diggs(0) Edit
sort 命令是帮我们依据不同的数据类型进行排序,其语法及常用参数格式: sort [-bcfMnrtk][源文件][-o 输出文件] 补充说明:sort 可针对文本文件的内容,以行为单位来排序。 参 数: -b 忽略每行前面开始出的空格字符。 -c 检查文件是否已经按照顺序排序。 -f 排序时,忽 Read More
posted @ 2017-10-11 19:46 dahu1 Views(257) Comments(0) Diggs(0) Edit
原文: 为什么要增加随机请求头:更好地伪装浏览器,防止被 Ban。 如何在每次请求时,更换不同的 user_agent,Scrapy 使用 Middleware 即可 Spider 中间件 (Middleware) 下载器中间件是介入到 Scrapy 的 spider 处理机制的钩子框架,可以添加代 Read More
posted @ 2017-09-23 11:38 dahu1 Views(3654) Comments(0) Diggs(0) Edit
参考:http://www.yiibai.com/mongodb/mongodb_drop_collection.html http://www.cnblogs.com/zhouxuchen/p/5544227.html pymongo的一些操作: 启动 远程连接的时候, 配置mongodb.con Read More
posted @ 2017-09-19 19:53 dahu1 Views(1748) Comments(0) Diggs(0) Edit
标题就凸显了尴尬,是的,本地(ubuntu16.04)自带的mongodb太老了,想要装最新版的 卸载: 然后下载新版的mongodb: https://mirrors.tuna.tsinghua.edu.cn/mongodb/apt/ubuntu/dists/xenial/mongodb-org/ Read More
posted @ 2017-09-19 16:08 dahu1 Views(6555) Comments(0) Diggs(0) Edit
1.json文件中文解码: #!/usr/bin/python #coding=utf-8 #author=dahu import json with open('huxiu.json','r') as f: data=json.load(f) print data[0]['title'] for Read More
posted @ 2017-09-15 21:51 dahu1 Views(3090) Comments(0) Diggs(0) Edit
官网: https://virtualenv.pypa.io/en/latest/installation.html#via-pip virtualenv通过创建独立Python开发环境的工具, 来解决依赖、版本问题 安装: python -m pip install --user virtuale Read More
posted @ 2017-09-11 14:43 dahu1 Views(510) Comments(0) Diggs(0) Edit
文章来源,wait的使用效果还是不错的 最近在使用shell做一些部署工作,在使用过程中,效率一直不高。想提高效率,经过分析发现,并不是所有操作都是需要串行的,一些操作是可以进行并行操作的。经过学习,shell里面也是可以进行多线程编程的,而且十分方便,同时,wait命令可以进行shell的多线程同 Read More
posted @ 2017-09-11 09:23 dahu1 Views(1830) Comments(0) Diggs(0) Edit
参考原文 有两种方式: 1. command & : 后台运行,你关掉终端会停止运行 2. nohup command & : 后台运行,你关掉终端也会继续运行 一、 简介 Linux/Unix 区别于微软平台最大的优点就是真正的多用户,多任务。因此在任务管理上也有别具特色的管理思想。我们知道,在 Read More
posted @ 2017-09-08 16:11 dahu1 Views(712) Comments(0) Diggs(0) Edit
算法实现: 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法 支持三种分词模式: a,精确模式,试图将句子最精确地 Read More
posted @ 2017-09-07 19:09 dahu1 Views(1657) Comments(0) Diggs(0) Edit
方法一: 如果用户具有sudo权限,那么直接可以运行如下命令: #sudo su root #passwd #更改密码 或者直接运行sudo passwd root命令就可以直接更改root密码。 有关sudo su的区别: 1.共同点:都是root用户的权限; 2.不同点:su仅仅取得root权限 Read More
posted @ 2017-09-04 23:33 dahu1 Views(1784) Comments(0) Diggs(0) Edit
终端下锁屏ctrl + s,解锁 ctrl + q 长时间运行命令,防中断 screen 注意,screen命令里面是不可以滚动屏幕,查看以前记录的 : ctrl+A + [ 终端切割屏幕,类似vim的分屏: terminator tmux tail -f 等同于 --follow=descript Read More
posted @ 2017-08-31 14:46 dahu1 Views(200) Comments(0) Diggs(0) Edit
项目地址: https://github.com/ssut/py-googletrans 安装: 使用: 结果: 本来想直接构造查询单词的url地址,但是在爬取的时候获取不到那个值,里面有个tk值不知道. 看了下源码又修改了一下: 直接提取所翻译的字 Read More
posted @ 2017-08-31 10:39 dahu1 Views(1182) Comments(0) Diggs(0) Edit
官网 网上搜的安装教程:SRILM的安装方法 最近做的一个项目要用到语言模型,在网上找了一些开源的工具包试了一下。废话不多说,下面直接介绍一下SRILM的安装方法。 我实在ubuntu14.04底下使用SRILM。 SRILM的下载地址(我使用的是1.7.1版本) 1、安装 tcl 有用SRILM要 Read More
posted @ 2017-08-30 11:25 dahu1 Views(1114) Comments(0) Diggs(0) Edit
目录: 一基本训练 二语言模型打分 三语言模型剪枝 四语言模型合并 五语言模型使用词典限制 一、基本训练 有两种训练方法,分别如下: 二、语言模型打分 例: 三、语言模型剪枝 例: 四、语言模型合并 在合并语言模型之前,可以使用脚本计算出最好的比例,参考srilm的compute-best-mix脚 Read More
posted @ 2017-08-29 21:24 dahu1 Views(4786) Comments(1) Diggs(1) Edit
先看一下语言模型的输出格式 ARPA是常用的语言模型存储格式, 由主要由两部分构成。模型文件头和模型文件体构成。 上面是一个语言模型的一部分,三元语言模型的综合格式如下: 第一项表示ngram的条件概率,就是P(wordN | word1,word2,。。。,wordN-1)。 第二项表示ngram Read More
posted @ 2017-08-29 17:02 dahu1 Views(3608) Comments(0) Diggs(2) Edit
直观理解矩阵,比较好的文章和视频: 孟岩的三篇: 理解矩阵一 理解矩阵二 理解矩阵三 科学空间的6篇 新理解矩阵 3Blue1Brown在Blili的视频合集 一通下来,如痴如醉,大学的时候就该看这些了,对于加深矩阵的理解,很有用。 Read More
posted @ 2017-08-24 23:35 dahu1 Views(257) Comments(0) Diggs(0) Edit
生成器 参考文章: 协程 gevent 生成器进阶 看个例子: 结果: 可以看出 生成器的send(None)方法等于next()方法,next()方法可以直接替换成for循环 通过send(n)传递参数n进生成器,生成器里面通过yield关键字来获取参数的值 协程 我们利用这个特性,来学习一下协程 Read More
posted @ 2017-08-22 20:46 dahu1 Views(232) Comments(0) Diggs(0) Edit
Python中,队列是线程间最常用的交换数据的形式。Queue模块是提供队列操作的模块,虽然简单易用,但是不小心的话,还是会出现一些意外。 创建一个“队列”对象import Queueq = Queue.Queue(maxsize = 10)Queue.Queue类即是一个队列的同步实现。队列长度可 Read More
posted @ 2017-08-22 20:04 dahu1 Views(488) Comments(0) Diggs(0) Edit
本章学习爬虫的 回调和跟踪链接 使用参数 回调和跟踪链接 上一篇的另一个爬虫,这次是为了抓取作者信息 这个爬虫将从主页面开始, 以 parse_author 回调方法跟踪所有到作者页面的链接,以 parse 回调方法跟踪其它页面。 这里我们将回调方法作为参数直接传递给 response.follow Read More
posted @ 2017-08-16 21:40 dahu1 Views(552) Comments(0) Diggs(0) Edit
最近一段时间开始研究爬虫,后续陆续更新学习笔记 爬虫,说白了就是获取一个网页的html页面,然后从里面获取你想要的东西,复杂一点的还有: 反爬技术(人家网页不让你爬,爬虫对服务器负载很大) 爬虫框架(你不可能逮到一个需求就从头写个爬虫把,框架已经有了) 多线程 当然这是我自己的理解,而scrapy框 Read More
posted @ 2017-08-16 17:10 dahu1 Views(337) Comments(0) Diggs(0) Edit
参考w3cschool教程 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。 XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。 因此,对 XPath 的理解是很多 Read More
posted @ 2017-08-16 15:59 dahu1 Views(2518) Comments(0) Diggs(0) Edit
先了解下概念: ubuntu本地安装东西的时候,老是会遇到: 去官网看,不再支持6和7了: 安装ORACLE JAVA 8 INSTALL ORACLE JAVA 8 IN UBUNTU OR LINUX MINT VIA PPA REPOSITORY [JDK8] ok 如果还不是,可能本地装了其 Read More
posted @ 2017-08-09 20:31 dahu1 Views(2254) Comments(0) Diggs(0) Edit
直接去官网找:https://www.mongodb.com/download-center#community 但是发现下载太慢,看下官网的说明: Install MongoDB Community Edition on Ubuntu PLATFORM SUPPORT MongoDB only p Read More
posted @ 2017-08-09 00:09 dahu1 Views(270) Comments(0) Diggs(0) Edit
apt-get命令: apt-get是debian,ubuntu发行版的包管理工具,与红帽中的yum工具非常类似,适用于deb包管理式的操作系统,主要用于自动从互联网的软件仓库中搜索、安装、升级、卸载软件或操作系统。apt-get在安装包的时候是根据/etc/apt/sources.list文件中指 Read More
posted @ 2017-08-07 20:10 dahu1 Views(4960) Comments(0) Diggs(0) Edit
语法:tar [主选项+辅选项] 文件或者目录 使用该命令时,主选项是必须要有的,它告诉tar要做什么事情,辅选项是辅助使用的,可以选用。主选项:-c: 建立压缩档案-x:解压-t:查看内容-r:向压缩归档文件末尾追加文件-u:更新原压缩包中的文件 这五个是独立的命令,压缩解压都要用到其中一个,可以 Read More
posted @ 2017-08-07 16:16 dahu1 Views(535) Comments(0) Diggs(0) Edit
#学习鸟哥的linux私房菜 /etc/passwd的文件构造: 每一行为一个帐号以冒好:作为间隔,每个代表的意思是 1.帐号名称,用来对应uid的,root就是0 2.密码,密码数据现在/etc/shadow 中,所以这里会有一个『x 』 3.UID 4.GID 这个与/etc/group 有关! Read More
posted @ 2017-08-07 15:22 dahu1 Views(1488) Comments(0) Diggs(0) Edit