2018 年 6月随笔档案 - 王琳杰

MySQL存储

摘要：安装好了MySQL数据库并保证它能正常运行，而且需要安装好PyMySQL库。连接数据库这里，首先尝试连接一下数据库。假设当前的MySQL运行在本地，用户名为root，密码为123456，运行端口为3306。这里利用PyMySQL先连接MySQL，然后创建一个新的数据库，名字叫作spiders，代阅读全文

posted @ 2018-06-30 22:56 王琳杰阅读(946) 评论(0) 推荐(0) 编辑

XPath的使用[爬取知乎发现]文件存储[txt，json，csv，mongodb]

摘要：使用XPath 保存为TXT 保存为csv 读取csv Excel打开乱码参考：excel打开csv文件显示乱码的处理方法_百度经验保存到MongoDB 稍微改动抛出异常 raise DuplicateKeyError(error.get("errmsg"), 11000, error) pym 阅读全文

posted @ 2018-06-30 20:35 王琳杰阅读(1332) 评论(0) 推荐(0) 编辑

scrapy发送POST请求

摘要：发送post请求可以使用 yield scrapy.FormRequest(url, formdata, callback)方法发送POST请求。如果希望程序执行一开始就发送POST请求，可以重写Spider类的start_requests(self) 方法，并且不再调用start_urls里的阅读全文

posted @ 2018-06-30 11:49 王琳杰阅读(318) 评论(0) 推荐(0) 编辑

爬取IT之家业界新闻

摘要：爬取站点 https://it.ithome.com/ityejie/ ，进入详情页提取内容。阅读全文

posted @ 2018-06-30 10:41 王琳杰阅读(317) 评论(0) 推荐(0) 编辑

爬取IT之家新闻

摘要：爬取站点 https://it.ithome.com/ityejie/ ，进入详情页提取内容。阅读全文

posted @ 2018-06-30 02:19 王琳杰阅读(377) 评论(0) 推荐(0) 编辑

Redis-Scrapy的example

摘要：源码自带项目说明：使用scrapy-redis的example来修改先从github上拿到scrapy-redis的示例，然后将里面的example-project目录移到指定的地址：我们clone到的 scrapy-redis 源码中有自带一个example-project项目，这个项目包含阅读全文

posted @ 2018-06-29 00:58 王琳杰阅读(280) 评论(0) 推荐(0) 编辑

爬取中华网科技新闻

摘要：爬取 http://tech.china.com/articles/ 抓取新闻列表中所有分页的新闻详情，包括标题、正文、时间、来源等信息。创建项目scrapy startproject China scrapy genspider -t crawl chinatech items.py china 阅读全文

posted @ 2018-06-28 21:35 王琳杰阅读(374) 评论(0) 推荐(0) 编辑

爬取斗鱼图片

摘要：创建项目scrapy startproject douyu 编写items.py 创建基础类的爬虫 scrapy genspider douyutupian capi.douyucdn.cn 手机抓包得到API接口，返回JSON格式数据 douyutupian.py 管道文件pipelines.py 阅读全文

posted @ 2018-06-28 19:42 王琳杰阅读(533) 评论(0) 推荐(0) 编辑

Scrapy爬取IT之家

摘要：创建项目 scrapy startproject ithome 创建CrawSpider scrapy genspider -t crawl IT ithome.com items.py it.py pipelines.py 执行 scrapy crawl it 阅读全文

posted @ 2018-06-27 21:56 王琳杰阅读(218) 评论(0) 推荐(0) 编辑

爬取微信公众号文章

摘要：搜狗对微信公众平台的公众号和文章做了整合，使用代理爬取。 spider.py 阅读全文

posted @ 2018-06-26 22:30 王琳杰阅读(2002) 评论(0) 推荐(0) 编辑

爬取人力资源社保局咨询问题

摘要：创建项目 scrapy startproject shebao items.py 创建CrawSpider，使用模版crawl scrapy genspider -t crawl SB www.bjrbj.gov.cn SB.py pipelines.py 执行 scrapy crawl SB 阅读全文

posted @ 2018-06-26 22:19 王琳杰阅读(443) 评论(0) 推荐(0) 编辑

爬取智联招聘

摘要：创建项目 items.py zhaopin.py pipelines.py 执行 scrapy crawl zhaopin 阅读全文

posted @ 2018-06-26 01:22 王琳杰阅读(739) 评论(0) 推荐(0) 编辑

Python time.time()方法

摘要：直接上代码吧 >>> import time >>> time.time() 1529935923.641123 >>> time.localtime( time.time() ) time.struct_time(tm_year=2018, tm_mon=6, tm_mday=25, tm_hou 阅读全文

posted @ 2018-06-25 23:26 王琳杰阅读(13534) 评论(0) 推荐(0) 编辑

爬取爱笔智能招聘职位

摘要：爬取爱笔智能招聘职位 http://aibee.com/cn/joinus.aspx 或者：阅读全文

posted @ 2018-06-25 23:10 王琳杰阅读(260) 评论(0) 推荐(0) 编辑

爬取知乎Python中文社区信息

摘要：爬取知乎Python中文社区信息，https://zhuanlan.zhihu.com/zimei 阅读全文

posted @ 2018-06-25 22:33 王琳杰阅读(359) 评论(0) 推荐(0) 编辑

爬取爱笔智能招聘职位

摘要：1 import urllib.request 2 import urllib.parse 3 import requests 4 from urllib.parse import urlencode 5 from pyquery import PyQuery as pq 6 from pymongo import MongoClient 7 import json ... 阅读全文

posted @ 2018-06-25 01:57 王琳杰阅读(191) 评论(0) 推荐(0) 编辑

Python中list、tuple、str和dict之间的相互转换

摘要：1、字典（dict） a = {'name': 'wanglinjie', 'age': 26, 'city': 'beijing'} >>> a = {'name': 'wanglinjie', 'age': 26, 'city': 'beijing'} >>> a {'name': 'wangl 阅读全文

posted @ 2018-06-24 20:49 王琳杰阅读(5258) 评论(0) 推荐(0) 编辑

分析Ajax并爬取微博列表

摘要：Ajax，全称为Asynchronous JavaScript and XML，即异步的JavaScript和XML。它不是一门编程语言，而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。对于传统的网页，如果想更新其内容，那么必须要刷新整个阅读全文

posted @ 2018-06-24 11:22 王琳杰阅读(372) 评论(0) 推荐(0) 编辑

分布式爬虫

摘要：创建项目scrapy startproject xxx 编写items文件 items.py scrapy genspider zhihu zhihu.com scrapy genspider -t craw doubanmovie douban.com 阅读全文

posted @ 2018-06-24 10:25 王琳杰阅读(129) 评论(0) 推荐(0) 编辑

Scrapy爬取知乎用户信息

摘要：创建项目scrapy startproject zhihuuser scrapy genspider zhihu zhihu.com items.py zhihu.py pipelines.py 阅读全文

posted @ 2018-06-23 16:38 王琳杰阅读(275) 评论(0) 推荐(0) 编辑

scrapy-redis分布式组件

摘要：Scrapy 和 scrapy-redis的区别 Scrapy 是一个通用的爬虫框架，但是不支持分布式，Scrapy-redis是为了更方便地实现Scrapy分布式爬取，而提供了一些以redis为基础的组件(仅有组件)。 pip install scrapy-redis Scrapy-redis提供阅读全文

posted @ 2018-06-23 10:00 王琳杰阅读(139) 评论(0) 推荐(0) 编辑

爬取豆瓣电影信息

摘要：爬取豆瓣电影top250movie.douban.com/top250的电影数据，并保存在MongoDB中。创建项目scrapy startproject douban items.py 创建CrawSpider，使用模版craw scrapy genspider -t craw doubanmo 阅读全文

posted @ 2018-06-23 00:31 王琳杰阅读(547) 评论(0) 推荐(0) 编辑

数据存储小例

摘要：启动MongoDB服务的命令如下： brew services start mongodbsudo mongod 停止和重启MongoDB服务的命令分别是： brew services stop mongodbbrew services restart mongodb 查看当前数据库 > db 查看阅读全文

posted @ 2018-06-23 00:13 王琳杰阅读(126) 评论(0) 推荐(0) 编辑

数据存储

摘要：1.TXT文本存储可以用requests将网页源代码获取下来，然后使用pyquery解析库解析，接下来将提取的标题、回答者、回答保存到文本，代码如下：运行程序，可以发现在本地生成了一个txt文件。首先，用requests提取知乎的“发现”页面，然后将热门话题的问题、回答者、答案全文提取出来，然阅读全文

posted @ 2018-06-22 20:53 王琳杰阅读(635) 评论(0) 推荐(0) 编辑

文本提取及处理

摘要：文本提取及处理标题提取：正文提取： python3中处理：阅读全文

posted @ 2018-06-22 00:24 王琳杰阅读(907) 评论(0) 推荐(0) 编辑

爬取阳光问政平台

摘要：创建项目 scrapy startproject dongguan items.py 创建CrawSpider，使用模版crawl scrapy genspider -t crawl sun wz.sun0769.com sun.py pipelines.py 执行 scrapy crawl sun 阅读全文

posted @ 2018-06-21 22:25 王琳杰阅读(653) 评论(0) 推荐(0) 编辑

CrawlSpider爬取腾讯招聘信息

摘要：CrawlSpider不在手动处理url，它会自动匹配到响应文件里的所有符合匹配规则的链接。创建项目scrapy startproject TencentSpider items.py 创建CrawlSpider，使用模版crawl scrapy genspider -t crawl tencen 阅读全文

posted @ 2018-06-21 21:49 王琳杰阅读(257) 评论(0) 推荐(0) 编辑

LinkExtractor

摘要：响应文件导入LinkExtractor，匹配整个html文档中的链接 from scrapy.linkextractors import LinkExtractor 阅读全文

posted @ 2018-06-21 21:20 王琳杰阅读(480) 评论(0) 推荐(0) 编辑

scrapy爬取腾讯招聘信息

摘要：创建项目scrapy startproject tencent 编写items.py写class TencentItem 创建基础类的爬虫 scrapy genspider tencentPosition"tencent.com" tencentPosition.py 管道文件pipelines.p 阅读全文

posted @ 2018-06-21 20:29 王琳杰阅读(225) 评论(0) 推荐(0) 编辑

python3多线程糗事百科案例

摘要：Queue（队列对象） Queue是python中的标准库，可以直接import Queue引用;队列是线程间最常用的交换数据的形式 python下多线程的思考对于资源，加锁是个重要的环节。因为python原生的list,dict等，都是not thread safe的。而Queue，是线程安全的阅读全文

posted @ 2018-06-19 22:18 王琳杰阅读(634) 评论(0) 推荐(0) 编辑

Python3 多线程

摘要：Python3 多线程，多线程类似于同时执行多个不同程序，多线程运行有如下优点：使用线程可以把占据长时间的程序中的任务放到后台去处理。用户界面可以更加吸引人，这样比如用户点击了一个按钮去触发某些事件的处理，可以弹出一个进度条来显示处理的进度程序的运行速度可能加快在一些等待的任务实现上如用户输阅读全文

posted @ 2018-06-19 21:27 王琳杰阅读(356) 评论(0) 推荐(0) 编辑

多线程糗事百科案例（python2）

摘要：Queue（队列对象） Queue是python中的标准库，可以直接import Queue引用;队列是线程间最常用的交换数据的形式 python下多线程的思考对于资源，加锁是个重要的环节。因为python原生的list,dict等，都是not thread safe的。而Queue，是线程安全的阅读全文

posted @ 2018-06-19 00:23 王琳杰阅读(223) 评论(0) 推荐(0) 编辑

极验滑动验证码的识别

摘要：获取验证码图片识别缺口位置生成滑块拖动路径模拟实现滑块拼合估计是高分屏的原因，截全图下来的时候我用画图软件看了图形验证码的像素位置，刚好是给的位置参数乘以2，所以保存下来的2张验证码的图还要压缩一下分辨率，加入下面语句就可以做对比匹配了。修改参数结果输出：阅读全文

posted @ 2018-06-18 14:51 王琳杰阅读(2691) 评论(0) 推荐(0) 编辑

爬取【王琳杰-博客园】的博文

摘要：获取页面信息，用XPath 做数据提取获取每个blog里的用标题、正文、阅读次数信息保存到 json 文件内待完。。。 python3中：阅读全文

posted @ 2018-06-17 23:22 王琳杰阅读(161) 评论(0) 推荐(0) 编辑

处理给规范的文字

摘要：ORC库概述在读取和处理图像、图像相关的机器学习以及创建图像等任务中，Python 一直都是非常出色的语言。虽然有很多库可以进行图像处理，在这里只重点介绍：Tesseract Tesseract Tesseract 是一个 OCR 库,目前由 Google 赞助(Google 也是一家以 OCR 阅读全文

posted @ 2018-06-17 22:21 王琳杰阅读(240) 评论(0) 推荐(0) 编辑

糗事百科实例

摘要：爬取糗事百科段子，页面的URL是 http://www.qiushibaike.com/8hr/page/ 使用requests获取页面信息，用XPath 做数据提取获取每个帖子里的用户头像链接、用户姓名、段子内容、点赞次数和评论次数保存到 json 文件内在python3中爬取糗事百科段子：阅读全文

posted @ 2018-06-17 18:44 王琳杰阅读(169) 评论(0) 推荐(0) 编辑

使用XPath的爬虫,百度贴吧图片下载

摘要：现在我们用XPath来做一个简单的爬虫，我们尝试爬取某个贴吧里的所有帖子，并且将该这个帖子里每个楼层发布的图片下载到本地。在python3中使用XPath的爬虫,百度贴吧图片下载：阅读全文

posted @ 2018-06-16 14:55 王琳杰阅读(310) 评论(0) 推荐(0) 编辑

正则表达式

摘要：为什么要学正则表达式实际上爬虫一共就四个主要步骤：明确目标 (要知道你准备在哪个范围或者网站去搜索) 爬 (将所有的网站的内容全部爬下来) 取 (去掉对我们没用处的数据) 处理数据（按照我们想要的方式存储和使用）我们在昨天的案例里实际上省略了第3步，也就是"取"的步骤。因为我们down下了的数阅读全文

posted @ 2018-06-14 21:34 王琳杰阅读(113) 评论(0) 推荐(0) 编辑

Python2和Python3中urllib库中urlencode的使用注意事项

摘要：Python2和Python3中urllib库中urlencode的使用注意事项前言在Python中，我们通常使用urllib中的urlencode方法将字典编码，用于提交数据给url等操作，但是在Python2和Python3中urllib模块中所提供的urlencode的包位置有些不同。对阅读全文

posted @ 2018-06-14 19:38 王琳杰阅读(3305) 评论(0) 推荐(0) 编辑

python爬虫基础

摘要：urllib库的基本使用所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。在Python中有很多库可以用来抓取网页，我们先学习urllib。在Python 2中，有urllib和urllib2两个库来实现请求的发送。而在Python 3中，已经不存在urllib2这个阅读全文

posted @ 2018-06-14 00:18 王琳杰阅读(216) 评论(0) 推荐(0) 编辑

python自动抢票

摘要：马上端午节放假，又是抢票的时间，利用Python程序实现自动抢票。 Splinter是一个自动化测试网络应用的Python库。有了Splinter，就可以将打开浏览器、输入URL、填写表单、点击按钮等全部操作自动化。因此，我们需要引入这个库。通过pip install splinter来安装。小技阅读全文

posted @ 2018-06-13 22:08 王琳杰阅读(360) 评论(0) 推荐(0) 编辑

Movist for Mac 1.4.2 破解版 | Mac上好用的视频播放器有哪些？7 款本地视频播放器实测对比

摘要：Movist for Mac 1.4.2 破解版链接: https://pan.baidu.com/s/1tpFCtI7DdFw7tugu5ufjOA 密码: qscc 来自爱范儿 AppSo 诚意亲测 | 原文：http://www.ifanr.com/app/680902 我们评测了 7 款阅读全文

posted @ 2018-06-12 23:55 王琳杰阅读(762) 评论(0) 推荐(0) 编辑

前端自动化及优化

摘要：less、sass、stylus 它们是三种类似的样式动态语言，属于css预处理语言，它们有类似css的语法，为css赋予了动态语言的特性、如变量、继承、运算、函数等。这么做是为了css的编写和维护。它们使用的文件分别是：.less、.scss、*.styl,这些文件是不能再网页上直接使用的，最终阅读全文

posted @ 2018-06-12 23:54 王琳杰阅读(422) 评论(0) 推荐(0) 编辑

移动端库

摘要：1. 移动端js事件移动端的操作方式和PC端是不同的，移动端主要用手指操作，所以有特殊的touch事件，touch事件包括如下几个事件： 1、touchstart: //手指放到屏幕上时触发2、touchmove: //手指在屏幕上滑动式触发3、touchend: //手指离开屏幕时触发4、tou 阅读全文

posted @ 2018-06-12 23:50 王琳杰阅读(231) 评论(0) 推荐(0) 编辑

jQuery

摘要：1.jquery介绍 jQuery是目前使用最广泛的javascript函数库。据统计，全世界排名前100万的网站，有46%使用jQuery，远远超过其他库。微软公司甚至把jQuery作为他们的官方库。 jQuery的版本分为1.x系列和2.x、3.x系列，1.x系列兼容低版本的浏览器，2.x、3. 阅读全文

posted @ 2018-06-12 22:53 王琳杰阅读(323) 评论(0) 推荐(0) 编辑

JavaScript

摘要：1.JavaScript介绍 JavaScript是运行在浏览器端的脚步语言，JavaScript主要解决的是前端与用户交互的问题，包括使用交互与数据交互。 JavaScript是浏览器解释执行的，前端脚本语言还有JScript（微软，IE独有），ActionScript( Adobe公司，需要插件阅读全文

posted @ 2018-06-12 20:48 王琳杰阅读(356) 评论(0) 推荐(0) 编辑

移动端页面布局

摘要：移动端页面布局移动端app分类 1、Native App 原生app手机应用程序使用原生的语言开发的手机应用，Android系统用的是java，iOS系统用的是object-C 2、Hybrid App 混合型app手机应用程序混合使用原生的程序和html5页面开发的手机应用 3、Web App 阅读全文

posted @ 2018-06-11 23:28 王琳杰阅读(1654) 评论(0) 推荐(0) 编辑

HTML5与CSS3

摘要：1.CSS权重 CSS权重指的是样式的优先级，有两条或多条样式作用于一个元素，权重高的那条样式对元素起作用,权重相同的，后写的样式会覆盖前面写的样式。权重的等级可以把样式的应用方式分为几个等级，按照等级来计算权重 1、!important，加在样式属性值后，权重值为 100002、内联样式，如：阅读全文

posted @ 2018-06-11 23:15 王琳杰阅读(200) 评论(0) 推荐(0) 编辑

css

摘要：1.css基本语法及页面引用 css基本语法 css的定义方法是：选择器 { 属性:值; 属性:值; 属性:值;} 选择器是将样式和页面元素关联起来的名称，属性是希望设置的样式属性每个属性有一个或多个值。代码示例： css页面引入方法： 1、外联式：通过link标签，链接到外部样式表到页面中。 2 阅读全文

posted @ 2018-06-11 20:33 王琳杰阅读(263) 评论(0) 推荐(0) 编辑

HTML

摘要：1.html概述和基本结构一个html的基本结构如下：第一行是文档声明，第二行“<html>”标签和最后一行“</html>”定义html文档的整体，“<html>”标签中的‘lang=“en”’定义网页的语言为英文，定义成中文是'lang="zh-CN"',不定义也没什么影响，它一般作为分析统阅读全文

posted @ 2018-06-10 23:48 王琳杰阅读(268) 评论(0) 推荐(0) 编辑

charles 4.2.5 及破解文件

摘要：Charles是一个网络抓包工具，相比Fiddler，其功能更为强大，而且跨平台支持得更好，所以这里选用它来作为主要的移动端抓包工具。 1. 下载Charles Proxy 4.2版本，下载链接：https://www.charlesproxy.com/download 2. 安装后先打开Charl 阅读全文

posted @ 2018-06-03 23:35 王琳杰阅读(8711) 评论(0) 推荐(0) 编辑

ChromeDriver和PhantomJS配置到$PATH

摘要：1.ChromeDriver配置 2.PhantomJ配置

$1. 在Linux和Mac下，可以将ChromeDriver配置到$ PATH。首先，可以将可执行文件放到某一目录，目录可以任意选择。例如将当前可执行文件放在/usr/local/目录下，用下面命令打开此路径，接下来可以修改~/.pro 阅读全文

posted @ 2018-06-02 15:40 王琳杰阅读(1398) 评论(0) 推荐(0) 编辑

分析Ajax爬取今日头条街拍美图

摘要：1 import os 2 import requests 3 from urllib.parse import urlencode 4 from hashlib import md5 5 from multiprocessing.pool import Pool 6 7 GROUP_START = 1 8 GROUP_END = 5 9 10 def get_... 阅读全文

posted @ 2018-06-01 19:50 王琳杰阅读(268) 评论(0) 推荐(0) 编辑

使用Selenium模拟浏览器抓取淘宝商品美食信息

摘要：1.搜索关键词：利用Selenium驱动浏览器，得到商品列表。 2.分析页码并翻页：得到商品页码数，模拟翻页，得到后续页面的商品列表。 3.分析提取商品内容：利用PyQuery分析源码，解析得到商品列表。 4.存储到MongoDB：将商品列表信息存储到数据库MongoDB。 spider.py co 阅读全文

posted @ 2018-06-01 00:21 王琳杰阅读(398) 评论(0) 推荐(0) 编辑

一蓑烟雨

06 2018 档案

公告