摘要: #coding=utf-8 _date_ = '2018/12/9 16:18' import requests import re import json import time def get_one_page(url): headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKi... 阅读全文
posted @ 2018-12-09 17:36 404NooFound 阅读(235) 评论(0) 推荐(0) 编辑
摘要: class MonggoPipline(object): def __init__(self,mongo_uri,mongo_db): self.mongo_uri=mongo_uri self.mongo_db=mongo_db @classmethod def from_crawler(cls,crawler): re... 阅读全文
posted @ 2018-12-09 16:16 404NooFound 阅读(63) 评论(0) 推荐(0) 编辑
摘要: 1.请求库的安装 1.1 requests请求库 1.2 selenium的安装 selenium是一种自动化测试工具,可以用来驱动预览器执行任务。 selenium需要和预览器进行配合,我下载的是无头预览器,phantomjs 下载地址:http://phantomjs.org/download. 阅读全文
posted @ 2018-12-05 22:49 404NooFound 阅读(125) 评论(0) 推荐(0) 编辑
摘要: 问题描述:打开PyCharm时,弹出“Failed to load JVM DLL\bin\server\jvm.dll if you already have a 32-bit JDK install....” 解决方案: 别人的解决方案: (1)安装Microsoft Visual C++ 20 阅读全文
posted @ 2018-12-05 18:33 404NooFound 阅读(11619) 评论(0) 推荐(1) 编辑
摘要: 1 echo 和 @回显命令@ #关闭单行回显echo off #从下一行开始关闭回显@echo off #从本行开始关闭回显。一般批处理第一行都是这个echo on #从下一行开始打开回显echo #显示当前是 echo off 状态还是 echo on 状态echo. #输出一个”回车换行”,空 阅读全文
posted @ 2018-12-04 23:37 404NooFound 阅读(301) 评论(0) 推荐(0) 编辑
摘要: Requests官方文档: http://cn.python-requests.org/zh_CN/latest/ 例子:获取豆瓣短评页面源代码 Requests库的七个主要方法 阅读全文
posted @ 2018-12-04 20:16 404NooFound 阅读(378) 评论(0) 推荐(0) 编辑
摘要: 定义:某类元素的一个集合,并且存在元素之间的一种的顺序关系。 不含有任何元素的表为空表,长度为0。 表存在一种关系,即为下一关系 例子:L=(e0,e1,e2,e3…en-1) n>=0 下一关系为一个二元组的集合 {<e0,e1><e1,e2><e2,e3>…<en-2,en-1>} 下一关系为一 阅读全文
posted @ 2018-12-03 22:41 404NooFound 阅读(70) 评论(0) 推荐(0) 编辑
摘要: 查看网页请求 以chrome浏览器为例,在网页上点击鼠标右键,检查(或者直接F12),选择network,刷新页面,选择ALL下面的第一个链接,这样就可以看到网页的各种请求信息。 请求头(Request Headers)信息详解: Accept: text/html,image/*(浏览器可以接收的 阅读全文
posted @ 2018-12-03 22:06 404NooFound 阅读(624) 评论(0) 推荐(0) 编辑
摘要: 1.给网页所有<p>标签加上点击事件. 2.使表格隔行变色 3.对多选框进行操作,输出选择的多选框的个数 4. 折叠--》显示全部(部分高亮) 阅读全文
posted @ 2018-12-03 21:57 404NooFound 阅读(153) 评论(0) 推荐(0) 编辑