摘要: 前两天在linux 上面写了一版爬取微信公众号的文章 13_python爬虫——爬出新高度_抓取微信公众号文章(selenium+phantomjs)(上) 今天重新修改一下,让它在windows上面也能运行 运行下面的代码需要安装以下内容: pip ... 阅读全文
posted @ 2017-04-13 17:28 枫奇丶宛南 阅读(29) 评论(0) 推荐(0) 编辑
摘要: 原文地址: http://www.iteye.com/topic/212750 SSH 一、安装与启动SSH 在Red Hat Linux上的发行版本中大多已经包含了与OpenSSH相关的软件包,如果没有,则可以从OpenSSH的主页下载RPM包自行安装,... 阅读全文
posted @ 2017-04-12 18:04 枫奇丶宛南 阅读(412) 评论(0) 推荐(0) 编辑
摘要: 执行下面的文件,相当于linux 系统下的tree命令 能够遍历指定文件下的所有内容 #coding:utf-8import osdef print_dirName(spath): for schild in os.listdir(spath): sch... 阅读全文
posted @ 2017-04-12 16:04 枫奇丶宛南 阅读(28) 评论(0) 推荐(0) 编辑
摘要: 转载地址 http://blog.csdn.net/MrLevo520/article/details/52397305 前言 在爬取的过程中难免发生ip被封和403错误等等,这都是网站检测出你是爬虫而进行反爬措施,这里自己总结下如何避免 方法1:设... 阅读全文
posted @ 2017-04-12 09:23 枫奇丶宛南 阅读(22) 评论(0) 推荐(0) 编辑
摘要: fg、bg、jobs、&、nohup、ctrl+z、ctrl+c 命令 一、& 加在一个命令的最后,可以把这个命令放到后台执行,如 watch -n 10 sh test.sh & #每10s在后台执行一次test.sh脚本 二、ctrl... 阅读全文
posted @ 2017-04-11 20:06 枫奇丶宛南 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 抓取微信公众号的文章 一.思路分析 目前所知晓的能够抓取的方法有: 1、微信APP中微信公众号文章链接的直接抓取(http://mp.weixin.qq.com/s?__biz=MjM5MzU4ODk2MA==&mid=2735446906&idx=1&sn=... 阅读全文
posted @ 2017-04-11 12:10 枫奇丶宛南 阅读(132) 评论(0) 推荐(0) 编辑
摘要: json.dumps : dict转成str json.loads:str转成dict 也就是说,一个是将字典转换为字符串 一个是将字符串转换为字典 看下面的例子 import json TestTarget = {... 阅读全文
posted @ 2017-04-11 11:37 枫奇丶宛南 阅读(23) 评论(0) 推荐(0) 编辑
摘要: pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,我个人写过的一些抓取网页数据的脚本就是用它来解析html获取数据的。他的官方文档地址是:http://packages.python.org/pyquery/。今天重新看了一遍整... 阅读全文
posted @ 2017-04-11 10:56 枫奇丶宛南 阅读(20) 评论(0) 推荐(0) 编辑
摘要: quote函数 属于urllib库里面的一个函数 屏蔽特殊的字符、比如如果url里面的空格!url里面是不允许出现空格的。 按照标准, URL 只允许一部分 ASCII 字符(数字字母和部分符号),其他的字符(如汉字)是不符合 URL 标准的。 所... 阅读全文
posted @ 2017-04-11 10:05 枫奇丶宛南 阅读(88) 评论(0) 推荐(0) 编辑
摘要: 之前写过一个方法: py2exe的使用 今天要说的是另外一种方法, 使用pyinstaller 来打包程序 它的安装方法很简单, 使用pip 工具直接安装就行 pip install pyinstaller 检测方法 看导入安装包 import ... 阅读全文
posted @ 2017-04-10 11:09 枫奇丶宛南 阅读(33) 评论(0) 推荐(0) 编辑