杨小平# - 博客园

2020年6月15日

摘要： CSV文件：Comma-Separated Values，中文叫，逗号分隔值或者字符分割值，其文件以纯文本的形式存储表格数据。该文件是一个字符序列，可以由任意数目的记录组成，记录间以某种换行符分割。每条记录由字段组成，字段间的分隔符是其他字符或者字符串。所有的记录都有完全相同的字段序列，相当于一个结阅读全文

posted @ 2020-06-15 12:10 杨小平# 阅读(489) 评论(0) 推荐(0)

2020年4月5日

安装机器学习所需的库

摘要：首先打开电脑命令提示符 cd到pip所在文件夹下 cd C:\Users\yxp\AppData\Local\Programs\Python\Python37\Scripts（这是我的电脑Python的安装路径）安装sklearn，安装sklearn的时候一定要注意顺序。安装顺序：numpy / 阅读全文

posted @ 2020-04-05 16:27 杨小平# 阅读(581) 评论(0) 推荐(0)

2020年3月1日

认识Numpy Ndarray对象

摘要： Numpy介绍 NumPy(Numerical Python) 是 Python 语言的一个扩展程序库，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。 NumPy为什么能够受到各个数据科学从业人员的青睐与追捧，其实很大程度上是因为NumPy在向量计算方面做了很多优化，接口也非阅读全文

posted @ 2020-03-01 17:28 杨小平# 阅读(584) 评论(0) 推荐(0)

2020年2月23日

初识pandas

摘要： pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因阅读全文

posted @ 2020-02-23 21:54 杨小平# 阅读(287) 评论(0) 推荐(0)

2019年12月22日

爬取耶鲁大学公开课

摘要：耶鲁大学（Yale University）是一所坐落于美国康涅狄格州纽黑文的私立研究型大学，创于1701年，初名“大学学院”（Collegiate School），是全美历史第三悠久的高等学府，亦为常春藤盟校成员之一。该校教授阵容、学术创新、课程设置和场馆设施等方面堪称一流。除了研究生课程之外，耶鲁阅读全文

posted @ 2019-12-22 15:19 杨小平# 阅读(589) 评论(0) 推荐(3)

2019年12月12日

find()和find_all()的具体使用

摘要：在我们学会了BeautifulSoup库的用法后，我们就可以使用这个库对HTML进行解析，从网页中提取我们需要的内容。在BeautifulSoup 文档里，find()、find_all()两者的定义如下： find(tag, attributes, recursive, text, keywor 阅读全文

posted @ 2019-12-12 16:32 杨小平# 阅读(6659) 评论(0) 推荐(1)

2019年12月6日

爬取猫眼电影Top100

摘要：首先我们先找到它的首页：https://maoyan.com/board/4 点击“下一页”，可以看到第二页的URL为：https://maoyan.com/board/4?offset=10 此时我们可以分析出，第一页的URL为：https://maoyan.com/board/4?offset= 阅读全文

posted @ 2019-12-06 21:38 杨小平# 阅读(1100) 评论(0) 推荐(3)

2019年12月1日

爬取小说并以章节名保存

摘要：今天我们爬取网页中的文字，与上次的爬取网页中的图片相似，网页的中的文字也是在网页的源码中（一般情况下）。所以我们就以在某小说网站上爬取小说《圣墟》为例，使用爬虫爬取网页中的文本内容，并根据小说的章节名保存。我们的思路如下： 1.爬取当前网页的源码： 2.提取出需要的数据（标题，正文） 3.保存（阅读全文

posted @ 2019-12-01 18:30 杨小平# 阅读(2035) 评论(0) 推荐(1)

2019年11月24日

爬取百度贴吧图片（表情包）

摘要：我们在浏览百度贴吧时，会看到许多“神图”，我们想要保存，这个时候我们就会下载到本地，当我们学习了爬虫之后，就没有必要一个一个下载了，可以使用爬虫自动下载全部图片。下面随便指定一个贴吧页：http://tieba.baidu.com/p/3242594565，爬取页面上的图片。首先对这个帖子进行观察阅读全文

posted @ 2019-11-24 15:28 杨小平# 阅读(2980) 评论(0) 推荐(1)

2019年11月17日

使用Pycharm写一个网络爬虫

摘要：在初步了解网络爬虫之后，我们接下来就要动手运用Python来爬取网页了。我们知道，网络爬虫应用一般分为两个步骤： 1.通过网页链接获取内容； 2.对获得的网页内容进行处理这两个步骤需要分别使用不同的函数库：requests和beautifulsoup4。所以我们要安装这两个第三方库。我所用的编阅读全文

posted @ 2019-11-17 20:52 杨小平# 阅读(17562) 评论(0) 推荐(0)

##

公告