随笔分类 - python
摘要:1. 前言 学习爬虫,最好的方式就是自己编写爬虫程序。 爬取目标网站上的数据,理论上讲是简单的,无非就是分析页面中的资源链接、然后下载、最后保存。 但是在实施过程却会遇到一些阻碍。 很多网站为了阻止爬虫程序爬取数据,会对资源路径进行加密、或隐藏等保护操作。 编写爬虫程序的第一关键逻辑就解析资源路径。
阅读全文
摘要:1. 概念 爬虫不是动物,而是一种计算机程序。 这种程序有自己特定的功能,能按照使用者给定的一系列规则自行浏览万维网并获取需要的信息。此类程序被称为 网络爬虫(web crawler) 或 网络蜘蛛(spider)。 它具有智能分析能力,也称为 机器人程序 。 爬虫的应用应用领域: 如百度、谷歌等以
阅读全文
摘要:1 . 概念 1.1 真、伪随机数 大部分的计算机语言都会提供 API 生成随机数,此类 API 称为随机数生成器。 计算机可以用随机数模拟现实世界中的各种随机概率问题,没有随机生成器的编程语言不是“好语言”。 什么是真随机数? 现实世界中的随机数:比如掷钱币、骰子、转轮、使用电子元件的噪音、核裂变
阅读全文
摘要:1. 面向对象编程 OOP ( Object Oriented Programming) 即面向对象编程。 面向对象编程是一种编码思想,或是一种代码组织方式。如同编辑文章时,可以选择分段、分节的方式让文章看起来有层次、更方便阅读或修改。 编码时可以选择使用 OOP 方案,也可以选择不使用。如同行文一
阅读全文
摘要:1. 正则表达式 正则表达式是一种模板表达式语言 通过定义规则去匹配、查找、替换、分割一个长字符串中特定的子字符信息。 如在一篇文章中查找出所有合法的电子邮箱地址,则可以先用正则表达式定义一个电子邮箱规则,然后再使用这个规则在整个字符串中查找。 爬虫程序一般都会借助正则表达式定义的规则在爬出来的内容
阅读全文
摘要:
1、基础概念 什么是网络编程? 指在网络环境中,如何实现不在同一物理位置中的计算机之间进行数据通信 如果要保证数据通信顺利完成,则需要先了解如下几个概念: 1.1 协议 不同计算机内的进程之间进行数据通信时,需要先对数据进行封装或打包后方可以进行传输。所谓协议指通信双方需要共同遵守的数据打包格式。
阅读全文
