五杀摇滚小拉夫

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
  188 随笔 :: 0 文章 :: 19 评论 :: 99707 阅读

随笔分类 -  python

摘要:会话和Cookies 1、会话是指有始有终的一系列动作/信息。会话在服务端,也就是网站的服务器,用来保存用户的会话信息。2、Cookies保存了登录凭证,在客户端(浏览器)。指某些网站为了识别用户身份、进行会话跟踪而存储在用户本地终端上的数据。 代理的原理代理指的是代理服务器,功能是代理网络用户去取 阅读全文
posted @ 2023-06-02 10:19 五杀摇滚小拉夫 阅读(21) 评论(0) 推荐(0) 编辑

摘要:1、GET请求的参数包含在url里面,数据可以在url里看到,而POST请求的url不会包含这些数据,数据都是通过表单形式输出,会包含在请求体中。 2、GET请求提交的数据最多只有1024字节,而POST方式没有限制。 3、上传文件时,由于文件内容比较大,选用POST方式。 阅读全文
posted @ 2023-06-02 09:58 五杀摇滚小拉夫 阅读(11) 评论(0) 推荐(0) 编辑

摘要:1、Scrapy有一个扩展组件,叫作scrapyd,只需安装扩展组件,即可远程管理Scrapy任务,包括部署源码、启动任务、监听任务等。 2、Docker集群部署,只需将爬虫作为Docker镜像,只要主机安装了Docker,就可以直接运行爬虫,无需担心配置、版本问题。 Docker是一种容器技术,可 阅读全文
posted @ 2023-06-01 16:37 五杀摇滚小拉夫 阅读(13) 评论(0) 推荐(0) 编辑

摘要:1、MySQL是个轻量型的数据库。下载地址:https://dev.mysql.com/downloads/mysql/ 2、解压到本地文档 3、配置初始化my.ini文件 [mysqld]port=3306basedir=E:\mysql\mysqldatadir=E:\mysql\mysql\d 阅读全文
posted @ 2023-06-01 16:13 五杀摇滚小拉夫 阅读(19) 评论(0) 推荐(0) 编辑

摘要:PhantomJS是一个无边界、可脚本编程的WebKit浏览器引擎,原生支持多种web标准:DOM操作、CSS选择器、JSON、Canvas以及SVG。 Slenium支持PhantomJS,这样在运行的时候就不会再弹出一个浏览器。其运行效率高并支持各种参数配置,使用方便。下载地址:https:// 阅读全文
posted @ 2023-06-01 14:24 五杀摇滚小拉夫 阅读(214) 评论(0) 推荐(0) 编辑

摘要:Selenium库是一个自动化测试工具要配合Chromedriver使用。下载网址:https://chromedriver.storage.googleapis.com/index.html1、根据对应谷歌浏览器版本下载对应版本压缩包 2、直接将exe程序拖到python的scripts目录下或者 阅读全文
posted @ 2023-06-01 11:19 五杀摇滚小拉夫 阅读(93) 评论(0) 推荐(0) 编辑

摘要:1、pycharm官网下载最新版本官网地址:https://www.jetbrains.com/pycharm/download/#section=windows 2、python解析器下载官网地址:https://www.jetbrains.com.cn/pycharm/promo/?utm_so 阅读全文
posted @ 2023-06-01 10:20 五杀摇滚小拉夫 阅读(7) 评论(0) 推荐(0) 编辑

摘要:3.检测是否安装成功 4.pycahrm中配置新项目 阅读全文
posted @ 2019-03-28 21:30 五杀摇滚小拉夫 阅读(213) 评论(0) 推荐(0) 编辑

摘要:今天又捋一下思路,在兼职,也没时间去坐下来仔细思考分析问题:1.首先获取分类,比如先获取美食,再划分其分类,分类里有火锅、蛋糕、小吃快餐等等后面都显示了共有多少个搜索结果。 2.获取完分类id也知道了其总的结果个数,然后再配置请求data参数里的offset,其offset每次加载15条数据,可以根据获取的总个数n去算一共m页,再做循环请求m次。3.没请求一次数据就会获取15条数据,是jso... 阅读全文
posted @ 2018-12-04 20:59 五杀摇滚小拉夫 阅读(336) 评论(0) 推荐(0) 编辑

摘要:请求头设置: 参数设置: 多拖动滑动条,发现 offset发生变化,每次刷新加载15条数据。但是这里呢,还是出现了一些问题,还没有开始爬数据,只是简单地测试加载数据就出现了验证码的问题, 因此要像爬房产信息那样,虽然数据有很多,但是只给你返回100页数据,要想获取全部数据就要进行分类抓,不能抓取全部 阅读全文
posted @ 2018-12-03 22:43 五杀摇滚小拉夫 阅读(370) 评论(0) 推荐(0) 编辑

摘要:2.在分析下控制台情况: 阅读全文
posted @ 2018-12-03 00:24 五杀摇滚小拉夫 阅读(2247) 评论(0) 推荐(0) 编辑

摘要:1.Socket 是对 TCP/IP 协议族的一种封装,是应用层与TCP/IP协议族通信的中间软件抽象层。从设计模式的角度看来,Socket其实就是一个门面模式,它把复杂的TCP/IP协议族隐藏在Socket接口后面,对用户来说,一组简单的接口就是全部,让Socket去组织数据,以符合指定的协议。 阅读全文
posted @ 2018-12-02 19:31 五杀摇滚小拉夫 阅读(334) 评论(0) 推荐(0) 编辑

摘要:MySQL默认端口 3306 Redis默认端口 6379 MongoDB默认端口 27017 django端口 8000 flask端口 5000 pyspider服务端口 5000(由flask开发) gerapy服务端口 8000(由django开发) scrapyd服务端口 6800 ipython notebook 默认端口 8888 HTTP默认端口 80 HTTPS服务默认端口44... 阅读全文
posted @ 2018-12-02 09:45 五杀摇滚小拉夫 阅读(388) 评论(0) 推荐(0) 编辑

摘要:正常如下: 阅读全文
posted @ 2018-11-21 12:38 五杀摇滚小拉夫 阅读(147) 评论(0) 推荐(0) 编辑

摘要:request.url : https://touch.dujia.qunar.com/list?modules=list%2CbookingInfo%2CactivityDetail&dep=%E5%B9%BF%E5%B7%9E&query=%E5%8E%A6%E9%97%A8%E8%87%AA% 阅读全文
posted @ 2018-11-20 18:14 五杀摇滚小拉夫 阅读(394) 评论(0) 推荐(0) 编辑

摘要:认证key是访问api的钥匙 可以看到免费的用户只能访问一个服务器节点: 执行效果如下: 代码报错: 是由于网站把这个借口给关闭了,已经无法使用,但调用api接口的方式大概就是这样。 模拟获取请求参数拼接请求url去获取数据,其实就和使用代理ip差不多。 阅读全文
posted @ 2018-11-20 14:55 五杀摇滚小拉夫 阅读(295) 评论(0) 推荐(0) 编辑

摘要:采集速询网站数据:网站地址:http://www.suxun0752.com/index.html网站是需要账号登录才给返回信息的,我这里是直接拿的登录后的cookies请求的数据,cookies我也给了注释,没做深层的采集只是试采集了某一月份的。简单分析一下 :1.首先要先拿到cookies这样你才有权限去访问返回的数据。2.分析页面翻页请求的参数,及需要筛选的标签年份、月份等。把这几个参数综... 阅读全文
posted @ 2018-11-07 17:57 五杀摇滚小拉夫 阅读(397) 评论(1) 推荐(0) 编辑

摘要:通过账号登录获取cookies,模拟登录(前提有天眼查账号),会员账号可查看5000家,普通只是100家,同时也要设置一定的反爬措施以防账号被封。拿有权限的账号去获取cookies,去访问页面信息,不过这样呢感觉还是不合适,因为之前也采集过都是避开登录和验证码的问题,因为这些数据只是人家网站让不让你拿,该怎样去拿的问题。这里只是简单地做一下测试,实际采集会遇到各种问题的,这里只是个解题思路仅供参... 阅读全文
posted @ 2018-11-05 14:48 五杀摇滚小拉夫 阅读(3177) 评论(0) 推荐(0) 编辑

摘要:<input id="su" class="bg s_btn btnhover" value="百度一下" type="submit"/> //*[@id='su'] 获取id 的属性为'su' 的值 或 //input[contains(@class,'bg s_btn')] <a href="h 阅读全文
posted @ 2018-10-26 17:04 五杀摇滚小拉夫 阅读(337) 评论(0) 推荐(0) 编辑

摘要:主线程A中,创建了子线程B,并且在主线程A中调用了B.setDaemon(),这个的意思是,把主线程A设置为守护线程,这时候,要是主线程A执行结束了,就不管子线程B是否完成,一并和主线程A退出. 这就是setDaemon方法的含义,这基本和join是相反的。 此外,还有个要特别注意的:必须在star 阅读全文
posted @ 2018-10-25 16:07 五杀摇滚小拉夫 阅读(654) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示