摘要:转载自:Beautiful Soup库(bs4)入门 该库能够解析HTML和XML 使用Beautiful Soup库: from bs4 import BeautifulSoup import requests r = requests.get('http://www.23us.so/') htm
阅读全文
摘要:Twisted是一个事件驱动型的网络模型。时间驱动模型编程是一种范式,这里程序的执行流由外部决定。特点是:包含一个事件循环,当外部事件发生时,使用回调机制来触发相应的处理。 线程模式: 1.单线程同步模型,任务按照顺序执行。如果某个任务因为IO阻塞,其他所有的任务都必须等待,直到完成才能执行,但如果
阅读全文
摘要:import和from import都是将其他模块导入当前模块中。 刚开始一直以为import和from import唯一的区别,就是from import可以少写一些模块名。虽然from XX import 会污染当前名字空间,但似乎仅限如此。 但其实from import还有一个相当严重的陷阱。
阅读全文
摘要:关系型数据库和非关系型数据库的区别: nosql和关系型数据库比较: 优点:1)成本:nosql数据库简单易部署,基本都是开源软件,不需要像使用oracle那样花费大量成本购买使用,相比关系型数据库价格便宜。2)查询速度:nosql数据库将数据存储于缓存之中,关系型数据库将数据存储在硬盘中,自然查询
阅读全文
摘要:最近在看scrapy,在spider.py中,每次调用函数的时候都会用到yield,所以查了查,在python中有迭代器和生成器两种 迭代器:是一个实现了迭代器协议的对象,python的一些内置数据类型(列表,数组,字符串,字典等)都可以通过for语句进行迭代,我们也可以自己创建一个容器,实现了迭代
阅读全文
摘要:试着用scrapy将之前写的抓取链家网信息的重新写了写 然后先是用了第一页的网页作为测试,调试代码,然后发现总是抓取的时候遇见了 类似于这样的问题,并且抓取不到信息 2017-03-28 17:52:49 [scrapy.core.engine] DEBUG: Crawled (200) <GET
阅读全文
摘要:用scrapy建立一个project,名字为Spider 因为之前一直用的是电脑自带的python版本,所以在安装scrapy时,有很多问题,也没有装成功,所以就重新给本机安装了一个python3.+,然后安装scrapy和其他的库。新建的Spider文件夹结构如图 其中Spider.py 是spi
阅读全文
摘要:scrapy是python中数据抓取的框架。简单的逻辑如下所示 scrapy的结构如图所示,包括scrapy engine、scheduler、downloader、spider、item pipeline。 scrapy engine:引擎,是负责scheduler、downloader、spid
阅读全文
摘要:线程和进程的区别 多进程中子进程与父进程之间是相互独立的,并且内存空间相互独立。并且多进程比较稳定,如果一个子进程崩溃,不会影响到祝进程和其他子进程,缺点是穿件进程的代价大,多线程模式通常比多进程快一点,而且,多线程模式致命的,缺点是如果任何一个线程挂掉都可能直接造成整个进程崩溃,因为所有的线程共享
阅读全文
摘要:闲着没事就抓取了下链家网的房源信息,抓取的是北京二手房的信息情况,然后通过网址进行分析,有100页,并且每页的url都是类似的 url = 'https://bj.lianjia.com/ershoufang/pg' + 页数,然后请求是get 请求,所以静态页面,然后依次来进行分析,并且存储在mo
阅读全文
摘要:1.xrange python2.x中,比如使用rang(100),会给分配100的内存保存100个数(执行效率和内存) python3.x中,使用xrange,空间复杂度是o(1),要一个数给一个数。 2.print python2.x中,print不用加括号 python3.x中,print要加
阅读全文
摘要:现在属于是老年人的脑子,东西写着写着就忘了,东西记着记着就不知道了。之前学C++的时候就把类、对象这块弄得乱七八糟,现在是因为很想玩python,所以就看看python的类和对象。 就像说的,类有三个特征:封装、继承、多态。 1、封装:类封装了一些方法,可通过一定的规则约定方法进行访问权限。 C++
阅读全文
摘要:最近在看mongodb,然后会用了一些最简单的mongodb的操作,然后想着结合股票信息的数据的抓取,然后将数据存储在mongodb中,对于mongo和数据库的最大的区别是,mongo不需要建表,直接进行存储,然后在选择数据表的时候在进行插入数据的时候要将str格式的字符串转换成json的格式进行插
阅读全文
摘要:转自:易百教程 MongoDB中的数据具有灵活的模式。文档在同一集合,但它们不需要具有相同的字段或结构集合,集合文档中的公共字段可以包含不同类型的数据。 MongoDB中的数据具有灵活的模式。与SQL数据库不同,SQL数据库必须在插入数据之前确定和声明表的模式,MongoDB的集合不会强制执行文档结
阅读全文
摘要:关系型数据库遵循ACID规则 事务在英文中是transaction,和现实世界中的交易很类似,它有如下四个特性: 1、A (Atomicity) 原子性 原子性很容易理解,也就是说事务里的所有操作要么全部做完,要么都不做,事务成功的条件是事务里的所有操作都成功,只要有一个操作失败,整个事务就失败,需
阅读全文
摘要:1.安装 brew update brew install mongodb 2.启动mongo mongod --config /usr/local/etc/mongod.conf 3.启动 mongo 4.python 链接mongo 5.选择使用的数据库(以test为例) 6.添加信息 7.修改
阅读全文