该文被密码保护。 阅读全文
posted @ 2018-12-10 21:25 陈桑啊丶 阅读(2) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2018-12-10 21:06 陈桑啊丶 阅读(2) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2018-12-10 21:01 陈桑啊丶 阅读(4) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2018-12-10 21:00 陈桑啊丶 阅读(3) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2018-12-10 17:46 陈桑啊丶 阅读(0) 评论(0) 推荐(0) 编辑
摘要: import xlwt #创建一个工作表对象 workbook=xlwt.Workbook(encoding="utf-8") #设置excel表名 sheet=workbook.add_sheet("表名") #往表格中填充数据 #第一个参数表示行号,第二个参数表示列号 sheet.write(0,0,"姓名") sheet.write(0,1,"年龄") sheet.write(0,2,"身... 阅读全文
posted @ 2018-12-10 17:42 陈桑啊丶 阅读(1730) 评论(0) 推荐(0) 编辑
摘要: #csv(逗号分隔符),它是一种通用的文件格式,它可以非常轻易的被导入到各Eexcel表格或者数据库当中。csv文件,一行代表一条数据。 import csv #将列表写入到csv文件当中 rows=[["张三","20"],["李四","25"],["王五","23"],["麻子","26"]] #使用上下文管理器 # with open("test1.csv","w",encoding=&qu 阅读全文
posted @ 2018-12-10 17:41 陈桑啊丶 阅读(339) 评论(0) 推荐(0) 编辑
摘要: # 要做模拟登陆需要知道表单数据的提交地址,和提交的参数。经观察发现点击登陆发起的是一个post请求,请求的地址是:https://github.com/session。提交的参数中commit,utf-8这个参数是不会变化的。login这个参数是自己填写的账户名,password这个参数是自己添加的密码,剩下的就是这个authenticity_token这个参数它是一个加密参数。经过分析aut... 阅读全文
posted @ 2018-12-10 16:58 陈桑啊丶 阅读(435) 评论(0) 推荐(1) 编辑
摘要: import requests class ChouTiSpider(object): def __init__(self): self.headers={ "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:61.0) Gecko/20100101 Firefox/61.0", ... 阅读全文
posted @ 2018-12-10 16:56 陈桑啊丶 阅读(256) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2018-12-10 16:55 陈桑啊丶 阅读(4) 评论(0) 推荐(0) 编辑
摘要: #BeautfiulSoup是Python支持的一个第三方库,它的主要作用是可以非常方便的从HTML网页中提取所需要的数据 #lxml是第三方的解析库,默认情况下BS4会使用Python自带的解析器取解析html页面,但是lxml解析速度更快,功能上更为强大,因为它的底层是通过c语言实现的。 from bs4 import BeautifulSoup import re #创建一个Beautif... 阅读全文
posted @ 2018-12-10 16:53 陈桑啊丶 阅读(345) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2018-12-10 16:49 陈桑啊丶 阅读(3) 评论(0) 推荐(0) 编辑
摘要: import requests #使用requests发起一个get请求 # response=requests.get('http://www.baidu.com') # print(response) # print(type(response)) # #打印此次请求的地址 # print(response.url) # #打印此次请求的请求头 # print(response.header... 阅读全文
posted @ 2018-12-10 15:30 陈桑啊丶 阅读(223) 评论(0) 推荐(0) 编辑
摘要: #----------------------------如何获取cookie信息-------------------------------------------- import http.cookiejar,urllib.request # #第一步声明一个Cookiejar对象 # cookie_obj=http.cookiejar.CookieJar() # #第二步,根据cooki... 阅读全文
posted @ 2018-12-10 15:23 陈桑啊丶 阅读(255) 评论(0) 推荐(0) 编辑
摘要: #为什么要设置代理IP和随机请求头?#爬虫默认的User-Agent(python-urllib/python版本)#1.服务器会判断一个频繁的请求是不是来自于同一个User-Agent标识,或者判断User-Agent是不是以python开头。如果是,则会限制访问。#解决方案:随机切换User-A 阅读全文
posted @ 2018-12-10 14:56 陈桑啊丶 阅读(2287) 评论(0) 推荐(0) 编辑
摘要: urllib是Python中内置的发送网络请求的一个库(包),在Python2中由urllib和urllib2两个库来实现请求的发送,但是在Python中已经不存在urllib2这个库了,已经将urllib和urllib2合并为urllib。urllib是一个库(包),request是urllib库 阅读全文
posted @ 2018-12-10 14:38 陈桑啊丶 阅读(7520) 评论(1) 推荐(0) 编辑