04 2019 档案

摘要:from selenium import webdriver from selenium.webdriver.chrome.options import Options from time import sleep # 创建一个对象,用来控制chorme以无界面模式打开 chrome_options 阅读全文
posted @ 2019-04-22 17:47 安智伟 阅读(129) 评论(0) 推荐(0)
摘要:import requests from lxml import etree from 爬虫.old_boy.p3 import get_code_text session = requests.session() # session的作用与requests的作用几乎一样,都可以请求的发送,并且请求 阅读全文
posted @ 2019-04-18 23:22 安智伟 阅读(157) 评论(0) 推荐(0)
摘要:0. 建立housePro的scrapy爬虫框架 1. 用scrapy爬取网站信息 2. scrapy进行数据解析 调用parse的response参数,其中response对象可以直接调用xpath方法 3. scrapy的持久化存储 使用管道进行持久化流程 1.获取解析到的数据值 2.将解析到的 阅读全文
posted @ 2019-04-15 19:38 安智伟 阅读(183) 评论(0) 推荐(0)
摘要:MongoDB import pymongo # 1、连接MongoDB服务 mongo_py = pymongo.MongoClient() print(mongo_py) # 2、库和表的名字;有时间会自动建库建表 # 数据库 db = mongo_py['test2'] # 表、集合 coll 阅读全文
posted @ 2019-04-15 17:15 安智伟 阅读(206) 评论(0) 推荐(0)
摘要:1、直接使用url,没用headers的请求 import requests url = 'http://www.baidu.com' # requests请求用get方法 response = requests.get(url) # 返回的content是字节 需要解码 data = respon 阅读全文
posted @ 2019-04-08 13:46 安智伟 阅读(442) 评论(0) 推荐(0)
摘要:from urllib import request def load_data(): url = "http://www.baidu.com/" # 发送get的http请求 # respense: http相应的对象 response = request.urlopen(url) # 读取内容 阅读全文
posted @ 2019-04-07 12:25 安智伟 阅读(355) 评论(0) 推荐(0)