上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 32 下一页

2017年11月30日

【转载】Beautiful Soup库(bs4)入门

摘要: 转载自:Beautiful Soup库(bs4)入门 该库能够解析HTML和XML 使用Beautiful Soup库: from bs4 import BeautifulSoup import requests r = requests.get('http://www.23us.so/') htm 阅读全文

posted @ 2017-11-30 23:45 `Elaine 阅读(345) 评论(0) 推荐(0) 编辑

2017年11月29日

Twisted框架

摘要: Twisted是一个事件驱动型的网络模型。时间驱动模型编程是一种范式,这里程序的执行流由外部决定。特点是:包含一个事件循环,当外部事件发生时,使用回调机制来触发相应的处理。 线程模式: 1.单线程同步模型,任务按照顺序执行。如果某个任务因为IO阻塞,其他所有的任务都必须等待,直到完成才能执行,但如果 阅读全文

posted @ 2017-11-29 23:38 `Elaine 阅读(3048) 评论(0) 推荐(0) 编辑

2017年11月28日

【转载】python import和from import

摘要: import和from import都是将其他模块导入当前模块中。 刚开始一直以为import和from import唯一的区别,就是from import可以少写一些模块名。虽然from XX import 会污染当前名字空间,但似乎仅限如此。 但其实from import还有一个相当严重的陷阱。 阅读全文

posted @ 2017-11-28 22:27 `Elaine 阅读(189) 评论(0) 推荐(0) 编辑

2017年11月27日

关系型数据库和非关系型数据库的区别

摘要: 关系型数据库和非关系型数据库的区别: nosql和关系型数据库比较: 优点:1)成本:nosql数据库简单易部署,基本都是开源软件,不需要像使用oracle那样花费大量成本购买使用,相比关系型数据库价格便宜。2)查询速度:nosql数据库将数据存储于缓存之中,关系型数据库将数据存储在硬盘中,自然查询 阅读全文

posted @ 2017-11-27 22:44 `Elaine 阅读(358) 评论(0) 推荐(0) 编辑

2017年11月26日

python中的迭代器和生成器

摘要: 最近在看scrapy,在spider.py中,每次调用函数的时候都会用到yield,所以查了查,在python中有迭代器和生成器两种 迭代器:是一个实现了迭代器协议的对象,python的一些内置数据类型(列表,数组,字符串,字典等)都可以通过for语句进行迭代,我们也可以自己创建一个容器,实现了迭代 阅读全文

posted @ 2017-11-26 19:57 `Elaine 阅读(213) 评论(0) 推荐(0) 编辑

2017年11月25日

python抓取链家房源信息(二)

摘要: 试着用scrapy将之前写的抓取链家网信息的重新写了写 然后先是用了第一页的网页作为测试,调试代码,然后发现总是抓取的时候遇见了 类似于这样的问题,并且抓取不到信息 2017-03-28 17:52:49 [scrapy.core.engine] DEBUG: Crawled (200) <GET  阅读全文

posted @ 2017-11-25 01:14 `Elaine 阅读(405) 评论(0) 推荐(0) 编辑

2017年11月23日

scrapy抓取小说

摘要: 用scrapy建立一个project,名字为Spider 因为之前一直用的是电脑自带的python版本,所以在安装scrapy时,有很多问题,也没有装成功,所以就重新给本机安装了一个python3.+,然后安装scrapy和其他的库。新建的Spider文件夹结构如图 其中Spider.py 是spi 阅读全文

posted @ 2017-11-23 01:52 `Elaine 阅读(1017) 评论(0) 推荐(0) 编辑

2017年11月21日

python的scrapy框架

摘要: scrapy是python中数据抓取的框架。简单的逻辑如下所示 scrapy的结构如图所示,包括scrapy engine、scheduler、downloader、spider、item pipeline。 scrapy engine:引擎,是负责scheduler、downloader、spid 阅读全文

posted @ 2017-11-21 16:55 `Elaine 阅读(685) 评论(0) 推荐(0) 编辑

2017年11月17日

总结

摘要: 线程和进程的区别 多进程中子进程与父进程之间是相互独立的,并且内存空间相互独立。并且多进程比较稳定,如果一个子进程崩溃,不会影响到祝进程和其他子进程,缺点是穿件进程的代价大,多线程模式通常比多进程快一点,而且,多线程模式致命的,缺点是如果任何一个线程挂掉都可能直接造成整个进程崩溃,因为所有的线程共享 阅读全文

posted @ 2017-11-17 23:26 `Elaine 阅读(138) 评论(0) 推荐(0) 编辑

2017年11月16日

python抓取链家房源信息

摘要: 闲着没事就抓取了下链家网的房源信息,抓取的是北京二手房的信息情况,然后通过网址进行分析,有100页,并且每页的url都是类似的 url = 'https://bj.lianjia.com/ershoufang/pg' + 页数,然后请求是get 请求,所以静态页面,然后依次来进行分析,并且存储在mo 阅读全文

posted @ 2017-11-16 01:25 `Elaine 阅读(287) 评论(0) 推荐(0) 编辑

上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 32 下一页

导航