摘要: cookie适用于抓取需要登录才能访问的页面网站 cookie和session机制 http协议为无连接协议,cookie: 存放在客户端浏览器,session: 存放在Web服务器 人人网登录案例 方法一:登录网站手动抓取Cookie 1、先登录成功1次,获取到携带登陆信息的Cookie 登录成功 阅读全文
posted @ 2019-09-06 16:19 凌逆战 阅读(6542) 评论(0) 推荐(2) 编辑
摘要: 正则解析模块re re模块使用流程 方法一 r_list=re.findall('正则表达式',html,re.S) 方法二 创建正则编译对象 pattern = re.compile('正则表达式',re.S)r_list = pattern.findall(html) 正则表达式元字符:http 阅读全文
posted @ 2019-09-06 09:07 凌逆战 阅读(2143) 评论(0) 推荐(3) 编辑
摘要: 算法原理 用一句话总结决策树的核心思想:相似的输入必会产生相似的输出。 例如预测某人薪资: 年龄:1-青年,2-中年,3-老年 学历:1-本科,2-硕士,3-博士 经历:1-出道,2-一般,3-老手,4-骨灰 性别:1-男性,2-女性 为了提高搜索效率,使用树形数据结构处理样本数据: $$年龄=1\ 阅读全文
posted @ 2019-09-06 09:04 凌逆战 阅读(823) 评论(0) 推荐(2) 编辑