06 2018 档案
摘要:安装好了MySQL数据库并保证它能正常运行,而且需要安装好PyMySQL库。 连接数据库 这里,首先尝试连接一下数据库。假设当前的MySQL运行在本地,用户名为root,密码为123456,运行端口为3306。这里利用PyMySQL先连接MySQL,然后创建一个新的数据库,名字叫作spiders,代
阅读全文
摘要:使用XPath 保存为TXT 保存为csv 读取csv Excel打开乱码参考:excel打开csv文件显示乱码的处理方法_百度经验 保存到MongoDB 稍微改动 抛出异常 raise DuplicateKeyError(error.get("errmsg"), 11000, error) pym
阅读全文
摘要:发送post请求 可以使用 yield scrapy.FormRequest(url, formdata, callback)方法发送POST请求。 如果希望程序执行一开始就发送POST请求,可以重写Spider类的start_requests(self) 方法,并且不再调用start_urls里的
阅读全文
摘要:爬取站点 https://it.ithome.com/ityejie/ ,进入详情页提取内容。
阅读全文
摘要:爬取站点 https://it.ithome.com/ityejie/ ,进入详情页提取内容。
阅读全文
摘要:源码自带项目说明: 使用scrapy-redis的example来修改 先从github上拿到scrapy-redis的示例,然后将里面的example-project目录移到指定的地址: 我们clone到的 scrapy-redis 源码中有自带一个example-project项目,这个项目包含
阅读全文
摘要:爬取 http://tech.china.com/articles/ 抓取新闻列表中所有分页的新闻详情,包括标题、正文、时间、来源等信息。 创建项目scrapy startproject China scrapy genspider -t crawl chinatech items.py china
阅读全文
摘要:创建项目scrapy startproject douyu 编写items.py 创建基础类的爬虫 scrapy genspider douyutupian capi.douyucdn.cn 手机抓包得到API接口,返回JSON格式数据 douyutupian.py 管道文件pipelines.py
阅读全文
摘要:创建项目 scrapy startproject ithome 创建CrawSpider scrapy genspider -t crawl IT ithome.com items.py it.py pipelines.py 执行 scrapy crawl it
阅读全文
摘要:搜狗对微信公众平台的公众号和文章做了整合,使用代理爬取。 spider.py
阅读全文
摘要:创建项目 scrapy startproject shebao items.py 创建CrawSpider,使用模版crawl scrapy genspider -t crawl SB www.bjrbj.gov.cn SB.py pipelines.py 执行 scrapy crawl SB
阅读全文
摘要:创建项目 items.py zhaopin.py pipelines.py 执行 scrapy crawl zhaopin
阅读全文
摘要:直接上代码吧 >>> import time >>> time.time() 1529935923.641123 >>> time.localtime( time.time() ) time.struct_time(tm_year=2018, tm_mon=6, tm_mday=25, tm_hou
阅读全文
摘要:爬取爱笔智能招聘职位 http://aibee.com/cn/joinus.aspx 或者:
阅读全文
摘要:爬取知乎Python中文社区信息,https://zhuanlan.zhihu.com/zimei
阅读全文
摘要:1 import urllib.request 2 import urllib.parse 3 import requests 4 from urllib.parse import urlencode 5 from pyquery import PyQuery as pq 6 from pymongo import MongoClient 7 import json ...
阅读全文
摘要:1、字典(dict) a = {'name': 'wanglinjie', 'age': 26, 'city': 'beijing'} >>> a = {'name': 'wanglinjie', 'age': 26, 'city': 'beijing'} >>> a {'name': 'wangl
阅读全文
摘要:Ajax,全称为Asynchronous JavaScript and XML,即异步的JavaScript和XML。它不是一门编程语言,而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。 对于传统的网页,如果想更新其内容,那么必须要刷新整个
阅读全文
摘要:创建项目scrapy startproject xxx 编写items文件 items.py scrapy genspider zhihu zhihu.com scrapy genspider -t craw doubanmovie douban.com
阅读全文
摘要:创建项目scrapy startproject zhihuuser scrapy genspider zhihu zhihu.com items.py zhihu.py pipelines.py
阅读全文
摘要:Scrapy 和 scrapy-redis的区别 Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。 pip install scrapy-redis Scrapy-redis提供
阅读全文
摘要:爬取豆瓣电影top250movie.douban.com/top250的电影数据,并保存在MongoDB中。 创建项目scrapy startproject douban items.py 创建CrawSpider,使用模版craw scrapy genspider -t craw doubanmo
阅读全文
摘要:启动MongoDB服务的命令如下: brew services start mongodbsudo mongod 停止和重启MongoDB服务的命令分别是: brew services stop mongodbbrew services restart mongodb 查看当前数据库 > db 查看
阅读全文
摘要:1.TXT文本存储 可以用requests将网页源代码获取下来,然后使用pyquery解析库解析,接下来将提取的标题、回答者、回答保存到文本,代码如下: 运行程序,可以发现在本地生成了一个txt文件。 首先,用requests提取知乎的“发现”页面,然后将热门话题的问题、回答者、答案全文提取出来,然
阅读全文
摘要:文本提取及处理 标题提取: 正文提取: python3中处理:
阅读全文
摘要:创建项目 scrapy startproject dongguan items.py 创建CrawSpider,使用模版crawl scrapy genspider -t crawl sun wz.sun0769.com sun.py pipelines.py 执行 scrapy crawl sun
阅读全文
摘要:CrawlSpider不在手动处理url,它会自动匹配到响应文件里的所有符合匹配规则的链接。 创建项目scrapy startproject TencentSpider items.py 创建CrawlSpider,使用模版crawl scrapy genspider -t crawl tencen
阅读全文
摘要:响应文件 导入LinkExtractor,匹配整个html文档中的链接 from scrapy.linkextractors import LinkExtractor
阅读全文
摘要:创建项目scrapy startproject tencent 编写items.py写class TencentItem 创建基础类的爬虫 scrapy genspider tencentPosition"tencent.com" tencentPosition.py 管道文件pipelines.p
阅读全文
摘要:Queue(队列对象) Queue是python中的标准库,可以直接import Queue引用;队列是线程间最常用的交换数据的形式 python下多线程的思考 对于资源,加锁是个重要的环节。因为python原生的list,dict等,都是not thread safe的。而Queue,是线程安全的
阅读全文
摘要:Python3 多线程,多线程类似于同时执行多个不同程序,多线程运行有如下优点: 使用线程可以把占据长时间的程序中的任务放到后台去处理。 用户界面可以更加吸引人,这样比如用户点击了一个按钮去触发某些事件的处理,可以弹出一个进度条来显示处理的进度 程序的运行速度可能加快 在一些等待的任务实现上如用户输
阅读全文
摘要:Queue(队列对象) Queue是python中的标准库,可以直接import Queue引用;队列是线程间最常用的交换数据的形式 python下多线程的思考 对于资源,加锁是个重要的环节。因为python原生的list,dict等,都是not thread safe的。而Queue,是线程安全的
阅读全文
摘要:获取验证码图片 识别缺口位置 生成滑块拖动路径 模拟实现滑块拼合 估计是高分屏的原因,截全图下来的时候我用画图软件看了图形验证码的像素位置,刚好是给的位置参数乘以2,所以保存下来的2张验证码的图还要压缩一下分辨率,加入下面语句就可以做对比匹配了。 修改参数 结果输出:
阅读全文
摘要:获取页面信息,用XPath 做数据提取 获取每个blog里的用标题、正文、阅读次数信息 保存到 json 文件内 待完。。。 python3中:
阅读全文
摘要:ORC库概述 在读取和处理图像、图像相关的机器学习以及创建图像等任务中,Python 一直都是非常出色的语言。虽然有很多库可以进行图像处理,在这里只重点介绍:Tesseract Tesseract Tesseract 是一个 OCR 库,目前由 Google 赞助(Google 也是一家以 OCR
阅读全文
摘要:爬取糗事百科段子,页面的URL是 http://www.qiushibaike.com/8hr/page/ 使用requests获取页面信息,用XPath 做数据提取 获取每个帖子里的用户头像链接、用户姓名、段子内容、点赞次数和评论次数 保存到 json 文件内 在python3中爬取糗事百科段子:
阅读全文
摘要:现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地。 在python3中使用XPath的爬虫,百度贴吧图片下载:
阅读全文
摘要:为什么要学正则表达式 实际上爬虫一共就四个主要步骤: 明确目标 (要知道你准备在哪个范围或者网站去搜索) 爬 (将所有的网站的内容全部爬下来) 取 (去掉对我们没用处的数据) 处理数据(按照我们想要的方式存储和使用) 我们在昨天的案例里实际上省略了第3步,也就是"取"的步骤。因为我们down下了的数
阅读全文
摘要:Python2和Python3中urllib库中urlencode的使用注意事项 前言 在Python中,我们通常使用urllib中的urlencode方法将字典编码,用于提交数据给url等操作,但是在Python2和Python3中urllib模块中所提供的urlencode的包位置有些不同。 对
阅读全文
摘要:urllib库的基本使用 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,我们先学习urllib。在Python 2中,有urllib和urllib2两个库来实现请求的发送。而在Python 3中,已经不存在urllib2这个
阅读全文
摘要:马上端午节放假,又是抢票的时间,利用Python程序实现自动抢票。 Splinter是一个自动化测试网络应用的Python库。有了Splinter,就可以将打开浏览器、输入URL、填写表单、点击按钮等全部操作自动化。因此,我们需要引入这个库。通过pip install splinter来安装。 小技
阅读全文
摘要:Movist for Mac 1.4.2 破解版 链接: https://pan.baidu.com/s/1tpFCtI7DdFw7tugu5ufjOA 密码: qscc 来自爱范儿 AppSo 诚意亲测 | 原文:http://www.ifanr.com/app/680902 我们评测了 7 款
阅读全文
摘要:less、sass、stylus 它们是三种类似的样式动态语言,属于css预处理语言,它们有类似css的语法,为css赋予了动态语言的特性、如变量、继承、运算、函数等。这么做是为了css的编写和维护。 它们使用的文件分别是:.less、.scss、*.styl,这些文件是不能再网页上直接使用的,最终
阅读全文
摘要:1. 移动端js事件 移动端的操作方式和PC端是不同的,移动端主要用手指操作,所以有特殊的touch事件,touch事件包括如下几个事件: 1、touchstart: //手指放到屏幕上时触发2、touchmove: //手指在屏幕上滑动式触发3、touchend: //手指离开屏幕时触发4、tou
阅读全文
摘要:1.jquery介绍 jQuery是目前使用最广泛的javascript函数库。据统计,全世界排名前100万的网站,有46%使用jQuery,远远超过其他库。微软公司甚至把jQuery作为他们的官方库。 jQuery的版本分为1.x系列和2.x、3.x系列,1.x系列兼容低版本的浏览器,2.x、3.
阅读全文
摘要:1.JavaScript介绍 JavaScript是运行在浏览器端的脚步语言,JavaScript主要解决的是前端与用户交互的问题,包括使用交互与数据交互。 JavaScript是浏览器解释执行的,前端脚本语言还有JScript(微软,IE独有),ActionScript( Adobe公司,需要插件
阅读全文
摘要:移动端页面布局 移动端app分类 1、Native App 原生app手机应用程序使用原生的语言开发的手机应用,Android系统用的是java,iOS系统用的是object-C 2、Hybrid App 混合型app手机应用程序混合使用原生的程序和html5页面开发的手机应用 3、Web App
阅读全文
摘要:1.CSS权重 CSS权重指的是样式的优先级,有两条或多条样式作用于一个元素,权重高的那条样式对元素起作用,权重相同的,后写的样式会覆盖前面写的样式。 权重的等级 可以把样式的应用方式分为几个等级,按照等级来计算权重 1、!important,加在样式属性值后,权重值为 100002、内联样式,如:
阅读全文
摘要:1.css基本语法及页面引用 css基本语法 css的定义方法是: 选择器 { 属性:值; 属性:值; 属性:值;} 选择器是将样式和页面元素关联起来的名称,属性是希望设置的样式属性每个属性有一个或多个值。代码示例: css页面引入方法: 1、外联式:通过link标签,链接到外部样式表到页面中。 2
阅读全文
摘要:1.html概述和基本结构 一个html的基本结构如下: 第一行是文档声明,第二行“<html>”标签和最后一行“</html>”定义html文档的整体,“<html>”标签中的‘lang=“en”’定义网页的语言为英文,定义成中文是'lang="zh-CN"',不定义也没什么影响,它一般作为分析统
阅读全文
摘要:Charles是一个网络抓包工具,相比Fiddler,其功能更为强大,而且跨平台支持得更好,所以这里选用它来作为主要的移动端抓包工具。 1. 下载Charles Proxy 4.2版本,下载链接:https://www.charlesproxy.com/download 2. 安装后先打开Charl
阅读全文
摘要:1.ChromeDriver配置 2.PhantomJ配置 1. 在Linux和Mac下,可以将ChromeDriver配置到PATH。首先,可以将可执行文件放到某一目录,目录可以任意选择。 例如将当前可执行文件放在/usr/local/目录下,用下面命令打开此路径, 接下来可以修改~/.pro
阅读全文
摘要:1 import os 2 import requests 3 from urllib.parse import urlencode 4 from hashlib import md5 5 from multiprocessing.pool import Pool 6 7 GROUP_START = 1 8 GROUP_END = 5 9 10 def get_...
阅读全文
摘要:1.搜索关键词:利用Selenium驱动浏览器,得到商品列表。 2.分析页码并翻页:得到商品页码数,模拟翻页,得到后续页面的商品列表。 3.分析提取商品内容:利用PyQuery分析源码,解析得到商品列表。 4.存储到MongoDB:将商品列表信息存储到数据库MongoDB。 spider.py co
阅读全文