07 2018 档案
摘要:通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 通用搜索引擎(Search Engine)工作
阅读全文
摘要:一、"大数据时代",数据获取的方式: 1. 企业生产的用户数据:大型互联网公司有海量用户,所以他们积累数据有天然的优势。 有数据意识的中小型企业,也开始积累的数据。 2. 数据管理咨询公司:通常这样的公司有很庞大的数据采集团队,一般会通过市场调研、问卷调查、固定的样本检测, 和各行各业的公司进行合作
阅读全文
摘要:Python与MongoDB交互 创建管理员 > use admin switched to db admin > db admin > db.createUser({user:'admin',pwd:'123456',roles:[{role:'userAdminAnyDatabase',db:'
阅读全文
摘要:MongoDB高级操作 讲解关于mongodb的高级操作,包括聚合、主从复制、分片、备份与恢复、MR 完成python与mongodb的交互 聚合 aggregate 聚合(aggregate)主要用于计算数据,类似sql中的sum()、avg() 语法 管道 管道在Unix和Linux中一般用于将
阅读全文
摘要:MongoDB简介 MongoDB 是一个基于分布式 文件存储的NoSQL(非关系型)数据库 由C++语言编写,运行稳定,性能高 旨在为 WEB 应用提供可扩展的高性能数据存储解决方案 查看官方网站 MongoDB特点 模式自由 :可以把不同结构的文档存储在同一个数据库里 面向集合的存储:适合存储
阅读全文
摘要:数据库高级简介 实体与实体之间有3种对应关系,这些关系也需要存储下来 在开发中需要对存储的数据进行一些处理,用到内置的一些函数 视图用于完成查询语句的封装 事务可以保证复杂的增删改操作有效 关系 创建成绩表scores,结构如下 id 学生 科目 成绩 思考:学生列应该存什么信息呢? 答:学生列的数
阅读全文
摘要:数据库查询简介 查询的基本语法 select * from 表名; select * from 表名; from关键字后面写表名,表示数据来源于是这张表 select后面写表中的列名,如果是*表示在结果中显示表中所有列 在select后面的列名部分,可以使用as为列起别名,这个别名出现在结果集中 如
阅读全文
摘要:mysql数据库,是当前应用非常广泛的一款关系型数据库。 数据库简介 计算机诞生后,数据开始在计算机中存储并计算,并设计出了数据库系统 数据库系统解决的问题:持久化存储,优化读写,保证数据的有效性 当前使用的数据库,主要分为两类 文档型,如sqlite,就是一个文件,通过对文件的复制完成数据库的复制
阅读全文