Fork me on GitHub
摘要: [TOC] 1. URL的组成 汉字通过URL encode(UTF 8)编码出来的编码,里面的字符全是打字节 如果你复制粘贴下来这个网址,出来的不是汉字,而是编码后的字节 https://www.baidu.com/s?wd=%E7%BC%96%E7%A8%8B%E5%90%A7 我们也可以在py 阅读全文
posted @ 2019-01-04 16:46 Bricker666 阅读(1528) 评论(0) 推荐(0) 编辑
摘要: [TOC] 1. urllib.request的基本使用 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中抓取出来。在Python中有很多库可以用来抓取网页,我们先学习urllib.request。 Python模块源代码: urllib.request源代码: 1.1 urlopen 我们 阅读全文
posted @ 2019-01-04 15:32 Bricker666 阅读(6685) 评论(0) 推荐(1) 编辑
摘要: [TOC] 1. 为什么要学习numpy? numpy可以对整个array进行复杂计算,而不需要像list一样写loop 它的 提供了快速的基于array的数值运算 memory efficient container that provides fast numerical operations 阅读全文
posted @ 2019-01-04 11:07 Bricker666 阅读(1109) 评论(0) 推荐(0) 编辑
摘要: [TOC] 1. GitHub与Git万用语法 1)创建库 2)添加和提交到仓库 3)版本回退 4)缓存区和暂存区 5)撤销和删除文件 6)远程仓库 本地 GitHub GitHub 本地 7)创建和合并分支 解决合并冲突 2. 更多Git语法 阅读全文
posted @ 2019-01-03 16:32 Bricker666 阅读(1194) 评论(0) 推荐(0) 编辑
摘要: [TOC] 1. 远程仓库 GitHub Git是分布式版本控制系统,同一个Git仓库,可以分布到不同的机器上。怎么分布呢?最早,肯定只有一台机器有一个原始版本库,此后,别的机器可以“克隆”这个原始版本库,而且每台机器的版本库其实都是一样的,并没有主次之分。 实际情况往往是这样,找一台电脑充当服务器 阅读全文
posted @ 2019-01-03 15:10 Bricker666 阅读(1051) 评论(1) 推荐(0) 编辑
摘要: [TOC] 1. Git简介 Git是目前世界上最先进的分布式版本控制系统 1.1 什么是版本控制系统? 我们从一个例子入手来理解版本控制系统,我最近在写一篇论文,每做一个更改(删除某一段),我都要保存成一个格外的版本,例如"GAR V1", "GAR V2", "GAR V3",但是等过一段时候之 阅读全文
posted @ 2019-01-03 12:58 Bricker666 阅读(476) 评论(0) 推荐(0) 编辑
摘要: [TOC] 1. HTTP和HTTPS HTTP: 一种发布和接受HTML页面方法,端口号为80 HTTPS: HTTP的安全版,在HTTP上加入了SSL层,端口号为443 SSL: 用于Web的安全传输协议,在传输层对网络连接进行加密,保障在Internet上数据传输的安全 网络爬虫可以理解为模拟 阅读全文
posted @ 2018-12-31 15:03 Bricker666 阅读(1794) 评论(0) 推荐(0) 编辑
摘要: [TOC] 1. 为什么要爬虫? “大数据时代”,数据获取的方式: 大型企业公司有海量用户,需要收集数据来提升产品体验 【百度指数(搜索),阿里指数(网购),腾讯数据(社交)】 数据管理咨询公司: 通过数据团队专门提供大量数据,通过市场调研,问卷调查等 政府/机构提供的公开数据 中华人民共和国统计局 阅读全文
posted @ 2018-12-31 14:24 Bricker666 阅读(1634) 评论(0) 推荐(0) 编辑
摘要: 好好学习,天天向上,我和我的小伙伴们都笑了。:smile: [TOC] 前言: 我们为什么要学习Markdown语法? 首先,它的语法简单,且兼容性级好 1.Markdown基础用法 1.1 目录 命令: 1.2 标题 1.3 字体样式 加粗 斜体 加粗斜体 ~~删除线~~ 1.4 引用 引用的内容 阅读全文
posted @ 2018-12-29 21:04 Bricker666 阅读(861) 评论(0) 推荐(0) 编辑