摘要:
有时需要根据条件,访问DataFrame中的数据。例如,找出电影数据集中,某个导演的电影: # 加载数据 movies_df = pd.read_csv("IMDB-Movie-Data.csv", index_col="Title") movies_df.columns = ['rank', 'g 阅读全文
摘要:
访问行数据,有两个方法: .loc – 使用索引名定位 .iloc – 使用索引序号定位 示例中的数据以电影名作为索引: # 加载数据 movies_df = pd.read_csv("IMDB-Movie-Data.csv", index_col="Title") movies_df.column 阅读全文
摘要:
返回Series 访问DataFrame中的Series,可以使用DataFrame['列名']方式。 # 加载数据 movies_df = pd.read_csv("IMDB-Movie-Data.csv", index_col="Title") movies_df.columns = ['ran 阅读全文
摘要:
describe 在整个DataFrame上使用describe(),我们可以得到一个统计结果: import pandas as pd # 加载数据 movies_df = pd.read_csv("IMDB-Movie-Data.csv", index_col="Title") movies_d 阅读全文
摘要:
除了删除空值,还有一种处理空值的方法是填充(Imputation)。 让我们看看在revenue_millions列中填充缺失的值。 首先,将该列提取到变量中: revenue = movies_df['revenue_millions'] 使用DataFrame['列名']可以获取1列数据,即一个 阅读全文
摘要:
数据集中通常会包含null值或空值,对于空值的处理有2种方式: 删除带有null的行或列 用非空值填充null项 检查null值 要处理数据集中的null值,首先要找出DataFrame中的哪些单元格是空的: movies_df.isnull() 输出 rank genre description 阅读全文
摘要:
关于数据集的列名,通常建议最好使用小写字母,删除特殊字符,并用下划线替换空格。有时数据集的列名可能不是很规范,需要整理修改理列名。 获取DataFrame的列名 获取DataFrame的列名,可以使用DataFrame.columns属性。 movies_df.columns 输出 Index([' 阅读全文
摘要:
去除重复数据是一项常见操作,Pandas中,可以使用drop_duplicates方法。 电影数据集没有重复的行,我们来制造一些重复行。 temp_df = movies_df.append(movies_df) temp_df.shape 输出 (2000, 11) append()将返回一个副本 阅读全文
摘要:
info 使用.info方法,可以查看数据集的基本信息: movies_df.info() 输出 <class 'pandas.core.frame.DataFrame'> Index: 1000 entries, Guardians of the Galaxy to Nine Lives Data 阅读全文
摘要:
Pandas可以对数据集进行各种有用的分析和操作。让我们先从最简单的查看数据开始。 我们将使用IMDB电影数据集来演示,数据集文件下载:IMDB-Movie-Data.csv 首先加载CSV数据集,并将电影标题Title指定为索引。 import pandas as pd movies_df = p 阅读全文
摘要:
有时需要存储DataFrame到文件中,可以把DataFrame存储到CSV, JSON,SQL数据库中,如下所示: df.to_csv('new_purchases.csv') df.to_json('new_purchases.json') # 保存到SQL数据库 import sqlite3 阅读全文
摘要:
要从SQL数据库中加载数据,可以使用Pandas的read_sql_query方法。 我们将使用sqlite来测演示。 首先安装python的sqlite驱动 pysqlite3: pip install pysqlite3 pysqlite3用于创建数据库连接,然后使用SELECT查询数据,加载D 阅读全文
摘要:
要从Json文件中读取数据,可以使用Pandas的read_json方法。 Json文件的内容: { "apples": { "June": 3, "Robert": 2, "Lily": 0, "David": 1 }, "oranges": { "June": 0, "Robert": 3, " 阅读全文
摘要:
将各种文件格式的数据加载到DataFrame中非常简单。 CSV文件只需要一行代码就可以加载数据。 例如,假设我们的CSV文件内容如下: ,apples,oranges June,3,0 Robert,2,3 Lily,0,7 David,1,2 在Excel中打开: Pandas加载CSV为Dat 阅读全文
摘要:
Pandas的两个主要数据结构是Series和DataFrame。 DataFrame可以理解为一张表,Series就是其中的一个列。 DataFrame和Series在许多操作上是相似的,通常在一个上能做的操作在另一个上也能做,如填充空值和计算平均值。 Pandas 创建 DataFrame 要创 阅读全文
摘要:
Pandas 是一个开放源码、BSD许可的库,为Python编程语言提供高性能、易于使用的数据结构和数据分析工具。Pandas基于NumPy开发。 Pandas 用途 Pandas 是一个数据分析工具,可用来清理、转换和分析数据。 例如,我们有一个csv格式的数据集,我们可以把数据提取到Pandas 阅读全文
摘要:
模型训练好后,就可以使用测试数据评估模型的性能。 score = model.evaluate(X_test, Y_test, verbose=0) 到此为止,我们已经完成了一个完整的Keras应用。进一步了解Keras,可参考更多Keras例子。 完整代码 下面是本教程的完整代码: # Keras 阅读全文
摘要:
训练模型,即根据训练数据拟合模型的过程。为了拟合这个模型,需要设置训练的批次大小和训练周期(epoch)数,另外,当然需要传递训练数据。 model.fit(X_train, Y_train, batch_size=32, nb_epoch=10, verbose=1) # Epoch 1/10 # 阅读全文
摘要:
接下来编译模型。在编译模型时,设置损失函数与优化器。 model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy']) Keras有多种损失函数和开箱即用的优化器可供选择。 阅读全文
摘要:
接下来定义神经网络模型架构。 在实际的研发工作中,模型架构研究是主要工作。当你刚刚开始时,可以从学术论文中复制经过验证的架构,或者使用现有的示例,Keras中的示例网址。 首先声明一个Sequential模型格式: model = Sequential() 接下来,声明输入层: model.add( 阅读全文