摘要: 待添加 阅读全文
posted @ 2018-03-28 18:30 扎心了,老铁 阅读(1546) 评论(0) 推荐(0) 编辑
摘要: 爬虫的四个主要步骤 什么是正则表达式 正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 给定一个正 阅读全文
posted @ 2018-03-28 18:29 扎心了,老铁 阅读(1858) 评论(0) 推荐(1) 编辑
摘要: HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。 HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HT 阅读全文
posted @ 2018-03-28 18:27 扎心了,老铁 阅读(10080) 评论(0) 推荐(1) 编辑
摘要: 通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 通用搜索引擎(Search Engine)工作 阅读全文
posted @ 2018-03-28 18:26 扎心了,老铁 阅读(1951) 评论(0) 推荐(0) 编辑
摘要: Python基础 基础教程参考廖雪峰的官方网站https://www.liaoxuefeng.com/ 一、"大数据时代",数据获取的方式 1. 企业生产的用户数据:大型互联网公司有海量用户,所以他们积累数据有天然的优势。 有数据意识的中小型企业,也开始积累的数据。 2. 数据管理咨询公司:通常这样 阅读全文
posted @ 2018-03-28 18:24 扎心了,老铁 阅读(2476) 评论(0) 推荐(0) 编辑
摘要: 前言 python3应该是Python的趋势所在,当然目前争议也比较大,这篇随笔的主要目的是记录在centos6.7下搭建python3环境的过程 以及碰到的问题和解决过程。 另外,如果本机安装了python2,尽量不要管他,使用python3运行python脚本就好,因为可能有程序依赖目前的pyt 阅读全文
posted @ 2018-03-28 18:22 扎心了,老铁 阅读(4757) 评论(1) 推荐(0) 编辑
摘要: 。。。 阅读全文
posted @ 2018-03-28 18:20 扎心了,老铁 阅读(3008) 评论(4) 推荐(0) 编辑