摘要: 一. 补充基础数据类型的相关知识点 1. str. join() 把列表变成字符串 2. 列表不能再循环的时候删除. 因为索引会跟着改变 3. 字典也不能直接循环删除,把要删除的内容记录在列表中. 循环列表. 删除原列表, 字典中的数据 A 4. fromkeys() 不会对原来的字典产生影响. 产 阅读全文
posted @ 2018-07-10 14:49 古月蜀黍 阅读(181) 评论(0) 推荐(0) 编辑
摘要: 1. is 和 == 区别 id()函数 == 判断两边的值 is 判断内存地址 回顾编码: 1. ASCII: 英文, 特殊字符, 数字, 8bit, 1byte 2. GBK: 中文 16bit, 2byte. 兼容ASCII 3. unicode: 万国码, 32bit 4byte. 兼容AS 阅读全文
posted @ 2018-07-09 21:26 古月蜀黍 阅读(97) 评论(0) 推荐(0) 编辑
摘要: 用selenium爬取空间 from selenium import webdriver from lxml import etree import time pro = webdriver.Chrome(executable_path=r'C:\Users\古月蜀黍\Desktop\chromedriver_win32\chromedriver.exe') pro.get(url='https... 阅读全文
posted @ 2018-07-06 19:39 古月蜀黍 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 对加密数据的爬取 import requests from lxml import etree import base64 import os from urllib import request url = 'http://jandan.net/ooxx/page-46' headers = { 阅读全文
posted @ 2018-07-06 13:52 古月蜀黍 阅读(123) 评论(0) 推荐(0) 编辑
摘要: 一.requests 1. requests.get(url,headers) 2.requests.post(url, headers, data) 二.urllib from urllib import request 1.request.urlretreieve(url, filename) 阅读全文
posted @ 2018-07-06 13:38 古月蜀黍 阅读(100) 评论(0) 推荐(0) 编辑
摘要: 一.代理ip 1.代理ip的级别 (1)透明 别人知道你使用的是代理ip,也知道你的真实ip (2)匿名代理 别人知道你使用的是代理ip,但不知道你的真实ip (3)高度匿名代理 别人不知道你使用的是代理ip,也不知道你的真实ip 2.代理的分类. (1)正向代理: 代理客户端获取数据,正向代理为了 阅读全文
posted @ 2018-07-04 17:08 古月蜀黍 阅读(85) 评论(0) 推荐(0) 编辑
摘要: 一.爬虫概念 1.什么是爬虫? 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。 2.哪些语言可以实现爬虫? (1)php:可以实现爬虫。php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆卖瓜的意思),但是php在实现爬虫中支持多线程和多进程方面做的不好。 (2)j 阅读全文
posted @ 2018-07-03 15:37 古月蜀黍 阅读(129) 评论(0) 推荐(0) 编辑