傻傻de

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2018年12月18日

摘要: 一、简介 1968年,Cover和Hart最早提出了K 近邻算法。 以下引用自百度百科: K最近邻(k Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。 该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的 阅读全文
posted @ 2018-12-18 11:08 傻傻de 阅读(639) 评论(0) 推荐(0) 编辑

2018年12月13日

摘要: 一、简介 以下引用自百度百科 Matplotlib 是一个 Python 的 2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形 。 通过 Matplotlib,开发者可以仅需要几行代码,便可以生成绘图,直方图,功率谱,条形图,错误图,散点图等。 二、流程 1. 明确要研究的问 阅读全文
posted @ 2018-12-13 01:10 傻傻de 阅读(2888) 评论(0) 推荐(0) 编辑

2018年12月10日

摘要: 昨天写了一个小爬虫,爬取了豆瓣上2017年中国大陆的电影信息,网址为 "豆瓣选影视" ,爬取了电影的名称、导演、编剧、主演、类型、上映时间、片长、评分和链接,并保存到MongoDB中。 一开始用的本机的IP地址,没用代理IP,请求了十几个网页之后就收不到数据了,报HTTP错误302,然后用浏览器打开 阅读全文
posted @ 2018-12-10 13:00 傻傻de 阅读(2989) 评论(0) 推荐(0) 编辑

2018年12月2日

摘要: 昨天使用 写了一个爬虫,爬取 "中国图书网" 上的图书的分类、书名、作者、出版社、出版日期、页数、价格、评分和评论数,数据通过 直接提取出来,下一页和详情页的url也可以通过 提取出来。 程序一开始运行没什么问题,可是运行几分钟之后,就悲剧了!如下图, 直接使用浏览器都进不去网站了。。。 在 中只添 阅读全文
posted @ 2018-12-02 22:03 傻傻de 阅读(239) 评论(0) 推荐(0) 编辑

2018年11月30日

摘要: 程序爬取目标 获取博客园精华区文章的 标题、标题链接、作者、作者博客主页链接、摘要、发布时间、评论数、阅读数和推荐数, 并存储到 MongoDB 中。 程序环境 已安装scrapy 已安装MongoDB 创建工程 在命令提示符中执行上述命令后,会建立一个名为 的文件夹。 创建爬虫文件 执行上述命令后 阅读全文
posted @ 2018-11-30 21:44 傻傻de 阅读(737) 评论(0) 推荐(0) 编辑

2018年11月29日

摘要: 上一篇主要介绍了MongoDB的基本操作,包括创建、插入、保存、更新和查询等,链接为 "MongoDB基本操作" 。 在本文中主要介绍MongoDB的聚合以及与Python的交互。 MongoDB聚合 什么是聚合 MongoDB中聚合(aggregate)主要用于处理数据(诸如统计平均值,求和等), 阅读全文
posted @ 2018-11-29 17:49 傻傻de 阅读(455) 评论(0) 推荐(0) 编辑

2018年11月26日

摘要: 什么是MongoDB 以下摘自百度百科: MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类 阅读全文
posted @ 2018-11-26 15:56 傻傻de 阅读(2647) 评论(0) 推荐(2) 编辑

2018年11月24日

摘要: 最近开通了博客,看到网上好多推荐markdown的,而且博客园支持markdown,所以决定学习一下。 百度百科对markdown的介绍: Markdown是一种可以使用普通文本编辑器编写的标记语言,通过简单的标记语法,它可以使普通文本内容具有一定的格式。 Markdown的语法简洁明了、学习容易, 阅读全文
posted @ 2018-11-24 10:54 傻傻de 阅读(402) 评论(0) 推荐(0) 编辑