枫奇丶宛南

摘要：前两天在linux 上面写了一版爬取微信公众号的文章 13_python爬虫——爬出新高度_抓取微信公众号文章（selenium+phantomjs）（上）今天重新修改一下，让它在windows上面也能运行运行下面的代码需要安装以下内容： pip ... 阅读全文

posted @ 2017-04-13 17:28 枫奇丶宛南阅读(29) 评论(0) 推荐(0) 编辑

摘要：原文地址： http://www.iteye.com/topic/212750 SSH 一、安装与启动SSH 在Red Hat Linux上的发行版本中大多已经包含了与OpenSSH相关的软件包，如果没有，则可以从OpenSSH的主页下载RPM包自行安装，... 阅读全文

posted @ 2017-04-12 18:04 枫奇丶宛南阅读(412) 评论(0) 推荐(0) 编辑

摘要：执行下面的文件，相当于linux 系统下的tree命令能够遍历指定文件下的所有内容 #coding:utf-8import osdef print_dirName(spath): for schild in os.listdir(spath): sch... 阅读全文

posted @ 2017-04-12 16:04 枫奇丶宛南阅读(28) 评论(0) 推荐(0) 编辑

摘要：转载地址 http://blog.csdn.net/MrLevo520/article/details/52397305 前言在爬取的过程中难免发生ip被封和403错误等等，这都是网站检测出你是爬虫而进行反爬措施，这里自己总结下如何避免方法1：设... 阅读全文

posted @ 2017-04-12 09:23 枫奇丶宛南阅读(22) 评论(0) 推荐(0) 编辑

摘要： fg、bg、jobs、&、nohup、ctrl+z、ctrl+c 命令一、& 加在一个命令的最后，可以把这个命令放到后台执行，如 watch -n 10 sh test.sh & #每10s在后台执行一次test.sh脚本二、ctrl... 阅读全文

posted @ 2017-04-11 20:06 枫奇丶宛南阅读(11) 评论(0) 推荐(0) 编辑

摘要：抓取微信公众号的文章一.思路分析目前所知晓的能够抓取的方法有： 1、微信APP中微信公众号文章链接的直接抓取（http://mp.weixin.qq.com/s?__biz=MjM5MzU4ODk2MA==&mid=2735446906&idx=1&sn=... 阅读全文

posted @ 2017-04-11 12:10 枫奇丶宛南阅读(132) 评论(0) 推荐(0) 编辑

摘要： json.dumps : dict转成str json.loads:str转成dict 也就是说，一个是将字典转换为字符串一个是将字符串转换为字典看下面的例子 import json TestTarget = {... 阅读全文

posted @ 2017-04-11 11:37 枫奇丶宛南阅读(23) 评论(0) 推荐(0) 编辑

摘要： pyquery库是jQuery的Python实现，可以用于解析HTML网页内容，我个人写过的一些抓取网页数据的脚本就是用它来解析html获取数据的。他的官方文档地址是：http://packages.python.org/pyquery/。今天重新看了一遍整... 阅读全文

posted @ 2017-04-11 10:56 枫奇丶宛南阅读(20) 评论(0) 推荐(0) 编辑

摘要： quote函数属于urllib库里面的一个函数屏蔽特殊的字符、比如如果url里面的空格！url里面是不允许出现空格的。按照标准， URL 只允许一部分 ASCII 字符（数字字母和部分符号），其他的字符（如汉字）是不符合 URL 标准的。所... 阅读全文

posted @ 2017-04-11 10:05 枫奇丶宛南阅读(88) 评论(0) 推荐(0) 编辑

摘要：之前写过一个方法： py2exe的使用今天要说的是另外一种方法，使用pyinstaller 来打包程序它的安装方法很简单, 使用pip 工具直接安装就行 pip install pyinstaller 检测方法看导入安装包 import ... 阅读全文

posted @ 2017-04-10 11:09 枫奇丶宛南阅读(33) 评论(0) 推荐(0) 编辑