随笔分类 -  Python爬虫+django

django入门(2)----管理数据库站点
摘要:一、管理 先总结一下命令: (1)注册一个管理员 python manage.py createsuperuser (2)启动服务 python manage.py runserver 8080 (3)进入浏览器 http://127.0.0.1:8080/admin/ 如果想改成中文:编辑sett 阅读全文

posted @ 2020-03-08 18:51 吱吱了了 阅读(169) 评论(0) 推荐(0) 编辑

django(1)----入门
摘要:一、概念 1、MVC框架 核心思想:(低耦合,高内聚)解耦,降低各功能模块之间的耦合性,易重构代码,最大程度上实现代码的重用。 m:model。主要用于对数据库层的封装。 v:view。用于向用户展示结果。 c:controller。核心,用于处理请求、获取数据、返回结果。 2、MVT框架(仅Dja 阅读全文

posted @ 2020-03-08 15:37 吱吱了了 阅读(175) 评论(0) 推荐(0) 编辑

正则表达式小知识点
摘要:1、()、[ ] 、{ } 小括号、中括号、大括号区别 小括号就是括号内看成一个整体 ,中括号就是匹配括号内的其中一个,大括号就是匹配几次 {n}n是一个非负整数。匹配确定的n次。例如,“o{2}”不能匹配“Bob”中的“o”,但是能匹配“food”中的两个o。 {n,}n是一个非负整数。至少匹配n 阅读全文

posted @ 2018-06-17 13:38 吱吱了了 阅读(252) 评论(0) 推荐(0) 编辑

Python爬虫4------图片爬虫
摘要:import urllib.request import re keyname="短裙" key=urllib.request.quote(keyname) headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64; rv:49.0) Gecko/20100101 Firefox/49.0") opener=urllib.request.... 阅读全文

posted @ 2018-05-16 14:27 吱吱了了 阅读(279) 评论(0) 推荐(0) 编辑

Python爬虫3-----浏览器伪装
摘要:1、浏览器伪装技术原理 当爬取CSDN博客时,会发现返回403,因为对方服务器会对爬虫进行屏蔽,故需伪装成浏览器才能爬取。浏览器伪装一般通过报头进行。 2、获取网页的报头 3、代码: 阅读全文

posted @ 2018-05-16 13:30 吱吱了了 阅读(550) 评论(0) 推荐(0) 编辑

Python爬虫2------爬虫屏蔽手段之代理服务器实战
摘要:1、代理服务器: 一个处于客户端与互联网中间的服务器,如果使用代理服务器,当我们浏览信息的时候,先向代理服务器发出请求,然后由代理服务器向互联网获取信息,再返回给我们。 2、代码: 阅读全文

posted @ 2018-05-16 13:12 吱吱了了 阅读(397) 评论(0) 推荐(0) 编辑

Python爬虫1-----urllib模块
摘要:1、加载urllib模块的request 2、相关函数: (1)urlopen函数:读取网页 webpage=request.urlopen(url,timeout=1) 【读取网页,参数timeout表示1秒之后为超时,遇到无效网页时可以跳过】 data=webpage.read() 【读取页面内 阅读全文

posted @ 2018-05-08 20:31 吱吱了了 阅读(331) 评论(0) 推荐(0) 编辑

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

导航

统计

点击右上角即可分享
微信分享提示