摘要:
[TOC] 1.什么是算法 算法是对特定问题求解步骤的一种描述,是指令的有限序列。 是由控制结构(顺序,分支和循环)和原操作(固有数据类型的操作)构成的 。 算法有5个特性:有穷性,确定性,可行性,输入和输出。 2.算法设计的要求 一个不错的算法要有一些要求,如下: (1)正确性:无语法错误,对一些 阅读全文
摘要:
[TOC] 在现代计算机系统中,计算机更多地用于控制,管理及数据处理等非数值计算的处理工作,而不像之前只需要处理数值型数据。这个时候,数据的类型变为了由字符,表格和图像格式等组合而成的具有一定结构的数据。 而用程序处理如何处理这些数据已经变得越来越重要了,由此产生了一个叫做数据结构的学科。下面就一起 阅读全文
摘要:
[TOC] pandas对象有一个常用数学,统计学方法的集合。大部分属于归纳或汇总统计。这些方法从DataFrame的行或列中抽取一个Series或一系列的值。 pandas的描述性统计的方法和NumPy的方法相比,内建了处理缺失值的功能,很好地针对于每一个我们需要处理的数据。 一:一些基本方法 1 阅读全文
摘要:
[TOC] 上节介绍了一些索引的选择,下面介绍另外一种选择数据的方式是使用loc和iloc选择数据。这两个分别叫做轴标签(loc)或整数标签(iloc)。 轴标签是通过索引或者列名选择数据。 整数标签是所在位置整数选择数据。 loc和iloc还可以带切片操作。 例如: 4.整数索引 在pandas中 阅读全文
摘要:
[TOC] 下面介绍pandas常见的基本功能,和python的基本数据类型进行比较可以看到pandas在操作大型数据集中的优势。 1.重建索引 (1)函数:reindex (2)作用:创建一个符合新索引的新对象。 (3)内容: Series调用reindex方法时,会将数组按照新的索引进行排列,如 阅读全文
摘要:
[TOC] 下面继续讲解pandas的第二个工具DataFrame。 二:pandas数据结构介绍 2.DataFarme DataFarme表示的是矩阵的数据表,包含已排序的列集合,是一个二维数据工具。每一列可以是不同的数据类型值。它既有行索引又有列索引,可以看作是一组共享相同索引的Series对 阅读全文
摘要:
[TOC] python是数据分析的主要工具,它包含的数据结构和数据处理工具的设计让python在数据分析领域变得十分快捷。它以NumPy为基础,并对于需要类似 for循环 的大量数据处理的问题有非常快捷的数组处理函数。 但是pandas最擅长的领域还是在处理表格型二维以上不同数据类型数据。 基本导 阅读全文
摘要:
@[toc] 这几天爬取了course动态网页的课程信息,有关 数据分析 , 机器学习 ,还有 概率论和数理统计 课程,这里数据过多,只对 数据分析 的模块进行了详细爬取。为之后的数据分析以及机器学习情感处理进行数据获取,下面直接上代码和截图: 1.大模块页面 页面如下: 爬取代码: 结果如下: 2 阅读全文
摘要:
[TOC] 这里之讲解用法,安装配置就不详细讲解了。我比较喜欢的浏览器驱动是ChromeDriver和无界面的PhantomJS。 一:浏览器信息测试 1.初始化浏览器 用下面的代码初始化浏览器 2.访问网页 二:查找结点 我们要想执行某个操作,比如填充表单,模拟点击等,或者向某个输入框输入文字,首 阅读全文
摘要:
@ "TOC" 算法题训练网站: "http://www.dotcpp.com" 1.简单的a+b (1)题目地址: "https://www.dotcpp.com/oj/problem1000.html" (2)算法解析: 首先要能够接收到横向用空格分开的数据,并知道当运行的时候,在什么地方可以停 阅读全文