随笔档案「2017年3月」 - sfzyk

配置了两天python【python可以的】

摘要：首先是看cs231n 发现代码的版本是py2 而我只装了 py3(anaconda3) 怎么办呢于是想办法装了 anaconda2 并与之共存，调用的时候用 activate py2调用 http://blog.csdn.net/infin1te/article/details/50445217 阅读全文

posted @ 2017-03-30 18:55 sfzyk 阅读(108) 评论(0) 推荐(0)

PYTHON网络爬虫与信息提取[scrapy框架应用](单元十、十一)

摘要：scrapy 常用命令 startproject 创建一个新的工程 scrapy startproject <name>[dir] genspider 创建一个爬虫 scrapy genspider [options]<name><domain> settings 获得爬虫的配置信息scrapy s 阅读全文

posted @ 2017-03-23 09:30 sfzyk 阅读(274) 评论(0) 推荐(0)

PYTHON网络爬虫与信息提取[正则表达式的使用](单元七)

摘要：正则表达式由字符和操作符构成 . 表示任何单个字符 []字符集，对单个字符给出取值范围 [abc]或者关系 [a-z]表示 [^abc]表示非这里面的东西非字符集 * 表示星号之前的字符出现0次或者无限次扩展 + 表示星号之前的字符出现一次或者无限次扩展 ? 表示出现0次或1扩展 | 表示左右表达阅读全文

posted @ 2017-03-14 18:08 sfzyk 阅读(275) 评论(0) 推荐(0)

扩展欧几里得算法

摘要：注意以下结论： ax+by=c的一组整数解为x y,则他的任意整数解可以写成(x+kb'，y-ka') b'=b/gcd(a,b) a'=gcd(a,b) ax+by=c 若c 不是gcd(a,b)的整数倍则无整数解递归的最后得到如下式子 gcd(a,b)*1+0*y=gcd(a,b) 阅读全文

posted @ 2017-03-14 16:36 sfzyk 阅读(114) 评论(0) 推荐(0)

PYTHON网络爬虫与信息提取[信息的组织与提取](单元五)

摘要：1 三种信息类型的简介 xml : extensible markup language 与html非常相似现有html后有xml xml是html发展来的扩展通用 json 类型 javascript object notation 有类型的键值对表达的方式一个key对应多个值 "key 阅读全文

posted @ 2017-03-07 21:15 sfzyk 阅读(358) 评论(0) 推荐(0)

PYTHON网络爬虫与信息提取[BeautifulSoup](单元四)

摘要：1 简介 from bs4 import BeautifulSoup soup=BeautifulSoup(<p>data</p>,'html.parser') 2 基本元素解析，遍历，维护，标签树的库 <p class="title"> ...</p> tag对名称 (属性 attribute 阅读全文

posted @ 2017-03-07 20:34 sfzyk 阅读(369) 评论(0) 推荐(0)

PYTHON网络爬虫与信息提取[网络爬虫协议](单元二)

摘要：robots.txt在网站的根目录下遵守自动或人工识别robots.txt再进行内容爬取约束性：建议性，不遵守协议，存在法律风险。基本语法： User-agent: * Disallow: / #注释 *所有 /代表根目录阅读全文

posted @ 2017-03-07 08:38 sfzyk 阅读(264) 评论(0) 推荐(0)

Python网络爬虫与信息提取[request库的应用](单元一)

摘要：恢复内容开始注：学习中国大学mooc 嵩天课程的学习笔记 request的七个主要方法 request.request() 构造一个请求用以支撑其他基本方法 request.get(url,params=None,**kwarg) 12个参数获取html的主要方法，对应于http的GET re 阅读全文

posted @ 2017-03-07 08:26 sfzyk 阅读(2819) 评论(0) 推荐(0)

03 2017 档案