摘要:
网络爬虫 定义:网络蜘蛛、网络机器人,抓取网络数据的程序 总结:用Python程序去模仿人去访问网站,模仿的越逼真越好 目的:通过有效的大量数据分析市场走势、公司决策 企业获取数据的方式 1. 公司自有数据 2. 第三方数据平台购买 数据堂、贵阳大数据交易所 3. 爬虫爬取数据 市场上没有或者价格太 阅读全文
摘要:
在MacOS下使用Fiddler抓包 有两种方式,分别是安装Mac版的Fiddler,或者是用虚拟机,安装Windows系统,在Windows系统下运行Fiddler对Mac系统中的内容进行抓包。 Mac版的Fiddler 请参考官网的说明以及步骤 "Fiddler Free Web Debuggi 阅读全文
摘要:
正则表达式 动机 文本处理已经成为计算机的常见工作之一 对文本内容的搜索,定位,提取是逻辑比较复杂的工作 为了快速解决上述问题,产生了正则表达式技术 定义 即文本的高级匹配模式,提供搜索,替代等功能。其本质是一系列由特殊符号组成的字串,这个字串即正则表达式。 匹配原理 由普通字符和特殊符号组成字符串 阅读全文
摘要:
Git 代码协同管理工具 代码管理工具作用 防止代码丢失,做备份 代码版本的管理,可以进行多个节点的备份,在多个版本之间跳跃 可以方便的将代码在多人之间进行共享传输 多人开发时有各种模式可以方便代码管理 分布式和集中式 git是一个开源的分布式版本控制系统,可用于高效的管理大小项目。 分布式(git 阅读全文
摘要:
MongoDB 数据存储阶段 文件管理阶段(.txt .doc .xls) 优点: 使用简单,展现直观 可以长期保存数据 可存储数据量比较大 缺点: 查找不方便 容易造成数据冗余 数据格式不规范 数据库管理阶段 优点: 将数据结构化存储,降低冗余 提高了增删改查效率 方便扩展,方便程序调用 缺点: 阅读全文
摘要:
服务器模型 硬件服务器 主机、集群 厂商:IBM、HP、联想、浪潮 软件服务器 :编写的服务端应用程序,在硬件服务器上运行,一般依托于操作系统,给用户提供一套完整的服务 httpserver:处理http请求 webserver:网站的后端应用服务器程序 邮箱服务器:邮件处理 ftp文件服务器:文件 阅读全文
摘要:
线程 什么是线程 线程也是一种多任务编程方法,可以利用计算机多核资源完成程序的并发执行。线程又被称为轻量级的进程。 线程 特征 线程计算机 多核分配 的最小单位 一个进程可以包含 多个线程 线程也是一个运行的过程,消耗计算机资源,多个线程共享进程的资源和空间 线程的创建删除 消耗的资源 都要远远小于 阅读全文
摘要:
multiprocessing 模块创建进程 1. 需要将要执行的事情封装为函数 2. 使用multiprocessing模块中Process类创建进程对象 3. 通过对象属性设置和Process的初始化函数对进程进行设置,绑定要执行的函数 4. 启动进程,会自动执行进程绑定的函数 5. 完成进程的 阅读全文
摘要:
本地套接字 Linux 文件 b(块设备文件) c(字符设备文件) d(目录) (普通文件) l(链接) s(套接字) p(管道) 作用:用于本地不同的程序间进行通信 创建流程 1. 创建本地套接字 sockfd = socket(AF_UNIX,SOCK_STREAM) 2. 绑定本地套接字文件 阅读全文
摘要:
IO IO input output 在内存中存在数据交换的操作都可以认为是IO操作 和终端交互 : input print 和磁盘交互 : read write 和网络交互 : recv send IO密集型程序:在程序执行过程中存在大量IO操作,而cpu运算操作较少,消耗cpu较少,运行效率较低 阅读全文