摘要: 文笔很差,总结献给多年的自己 学习django已经几天了,首先,一开始学习django框架的时候,是一头雾水。先是看了慕课网的教程视频,跟着码代码,起初感觉还可以,后面码着码着,代码有好多重复的操作,没有耐心看下去了 。之后呢,关注了大江狗的博客,发现大江狗的博客写的挺好的,通过大江狗的Python 阅读全文
posted @ 2019-05-12 09:28 cmap 阅读(377) 评论(0) 推荐(0) 编辑
摘要: selenium爬取煎蛋网 直接上代码 爬取的图片 进阶 个人用了个多线程 但不知道是不是多线程爬取 感觉爬取速度快多了 阅读全文
posted @ 2019-03-27 19:17 cmap 阅读(251) 评论(0) 推荐(0) 编辑
摘要: selenium笔记(1)一、关闭页面:1.driver.close() 关闭当前页面2.driver.quit() 退出整个浏览器二、定位元素:1.find_element_by_id: 根据id来查找某个元素。等价于: submitTag=driver.find_element_by_id('s 阅读全文
posted @ 2019-03-16 17:10 cmap 阅读(221) 评论(0) 推荐(0) 编辑
摘要: 多线程之Condition我们这说Condition,多线程编程中使用Condition对象代替lock, 能够实现在某个事件触发后才处理数据。 Condition版的生产者与消费者模式:Lock版本的生产者与消费者模式可以正常的运行。但是存在一个不足,在消费者中,总是通过while True死循环并且上锁的方式去判断钱够不够。上锁是一个很耗费CPU资源的行为。因此这种方式不是最好的。还有一种更好... 阅读全文
posted @ 2019-03-14 12:38 cmap 阅读(514) 评论(0) 推荐(0) 编辑
摘要: python序列化与反序列 在python中提供了两个模块可进行序列化。分别是pickle和json。他们两者的功能都差不多,dumps和dump都是进行序列化,而loads和load则是反序列化。 模块1:pickle pickle是python中独有的序列化模块。有个特别的名字,为泡菜。用于实现 阅读全文
posted @ 2019-03-09 12:33 cmap 阅读(314) 评论(0) 推荐(0) 编辑
摘要: BeautifulSoup4库 和lxml一样,Beautiful Soup也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML数据。lxml只会局部遍历,而Beautiful Soup是基于HTMLDOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多 阅读全文
posted @ 2018-10-09 16:16 cmap 阅读(352) 评论(0) 推荐(0) 编辑
摘要: 1.豆瓣 爬取单个页面数据 2.电影天堂 爬取多个页面数据 3.腾讯招聘 跟上一个电影天堂的代码差不多 阅读全文
posted @ 2018-10-09 16:03 cmap 阅读(254) 评论(0) 推荐(0) 编辑
摘要: lxml库 lxml是一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML数据。 基本使用: 1.我们可以利用他来解析HTML代码,并且在解析HTML代码的时候,如果HTML代码不规范,他会自动的进行补全。 2.从文件中读取html代码: 在上代码中,如果html代码不是很规范 阅读全文
posted @ 2018-10-01 16:56 cmap 阅读(859) 评论(0) 推荐(0) 编辑
摘要: requests库 get请求: 1.通过requests.get()来调用: 2.添加header和查询参数: 如传入参数的get请求: 查询参数: response.text和response.content的区别: 1.response.content:这个是直接从网络上面抓取的数据。没有经过 阅读全文
posted @ 2018-10-01 11:56 cmap 阅读(309) 评论(0) 推荐(0) 编辑
摘要: xPath Helper插件 xPath helper是一款Chrome浏览器的开发者插件,安装了xPath helper后就能轻松获取HTML元素的xPath,程序员就再也不需要通过搜索html源代码,定位一些id去找到对应的位置去解析网页了。 xPath Helper的用法: 这里说的是Chro 阅读全文
posted @ 2018-09-27 10:51 cmap 阅读(4967) 评论(0) 推荐(0) 编辑