随笔分类 -  大三上

摘要:今天大三上的课程正式结束,验收也正式结束。回想大三上这几个月以来学习了不少东西,hadoop,hive,hbase,mapreduce,pandas等等,主要训练了对大数据的清洗,以及前台的展示。大作业主要是对数据文件的上传导出以及数据字典,数据清洗。 总之不管完成的怎么样,最起码样子是有了,也是学 阅读全文
posted @ 2021-12-18 09:15 风吹过半夏 阅读(49) 评论(0) 推荐(0) 编辑
摘要:点击结果查看并导出即可查看清洗后的结果,清洗后数据会先保存到数据库中,然后可以通过穿梭框将要导出的属性列导出为excel 文件导出利用是原先的原始表数据导出,与之前的原理一摸一样,保存到数据库也与最一开始的文件上传并导入到数据库原理一样 #清洗数据存入数据库 def data_clean_save( 阅读全文
posted @ 2021-12-13 21:10 风吹过半夏 阅读(609) 评论(0) 推荐(0) 编辑
摘要:这次实现了缺省值处理部分内容,主要有将缺省值按中位数,平均值补全。将缺省行或者列去掉。 #缺省值补全 @app.route('/data_clean_supply') def data_clean_supply(): supply_type = request.values.get("supply_ 阅读全文
posted @ 2021-12-12 15:00 风吹过半夏 阅读(244) 评论(0) 推荐(0) 编辑
摘要:5.7 how much 5.7.1 计算相关系数(票房相关系数矩阵) clean_tmdb_5000_movies = "static/data/clean_df_tmdb_5000_movies.csv" # 显示所有列 pd.set_option('display.max_columns', 阅读全文
posted @ 2021-12-11 13:15 风吹过半夏 阅读(76) 评论(0) 推荐(0) 编辑
摘要:5.6 how 5.6.1 原创 VS 改编占比(饼图) 在查看属性列并没有发现有“改编“这一列一时间不知道如何分辨是否是改编。 但是百度以后发现keywords这一属性列中有based on代表是改编。于是问题解决了: clean_tmdb_5000_movies = "static/data/c 阅读全文
posted @ 2021-12-11 13:14 风吹过半夏 阅读(50) 评论(0) 推荐(0) 编辑
摘要:5.4 where 本数据集收集的是美国地区的电影数据,对于电影的制作公司以及制作国家,在本次的故事 背景下不作分析。 5.5 who 5.5.1 分析票房分布及票房 Top10 的导演 先统计除各个制片公司的电影数量和: #production_companies制片公司 clean_tmdb_5 阅读全文
posted @ 2021-12-11 13:13 风吹过半夏 阅读(32) 评论(0) 推荐(0) 编辑
摘要:5 数据分析 5.1 why 想要探索影响票房的因素,从电影市场趋势,观众喜好类型,电影导演,发行时间,评分与 关键词等维度着手,给从业者提供合适的建议。 5.2 what 5.2.1 电影类型:定义一个集合,获取所有的电影类型 clean_tmdb_5000_movies = "static/da 阅读全文
posted @ 2021-12-10 12:05 风吹过半夏 阅读(88) 评论(0) 推荐(0) 编辑
摘要:今日添加了数据清洗的部分,对原先的结构进行了修改。 在查看已创建表部分增加了查看已清洗表: 现在还没表,数据清洗部分写完后就有表了,已经清洗表的操作与原始数据表一样:这一部分的代码实现重用,主要靠表名与数据库来区分原数据表与已清洗数据表。 今天主要完成了数据清洗的重复值去除与缺省值统计的功能: 先显 阅读全文
posted @ 2021-12-09 00:12 风吹过半夏 阅读(553) 评论(0) 推荐(0) 编辑
摘要:1 导入数据 tmdb_5000_movies="static/data/tmdb_5000_movies.csv" # 显示所有列 pd.set_option('display.max_columns', None) # 显示所有行 pd.set_option('display.max_rows' 阅读全文
posted @ 2021-12-07 23:52 风吹过半夏 阅读(101) 评论(0) 推荐(0) 编辑
摘要:在复习之前学习的pandas代码时发现这句话 df_clean.apply(pd.to_numeric, errors='ignore') 感到十分疑惑,apply()是什么函数,pd.to_numeric又是啥,errors=""有啥作用。 接下来一一解答: 一、map(), apply()和ap 阅读全文
posted @ 2021-12-05 09:14 风吹过半夏 阅读(1259) 评论(0) 推荐(1) 编辑
摘要:实现了选取指定列导出为excel,上次只实现了获取穿梭框右侧的数据,这次实现了将数据传到后台,导出为excel文件 首先是将数据传到后台,我将数据拼接为字符串传到后台: var getData = transfer.getData('export_select_data'); //将数据进行拼接 v 阅读全文
posted @ 2021-12-03 15:36 风吹过半夏 阅读(148) 评论(0) 推荐(0) 编辑
摘要:首先是利用layui的穿梭框来实现选择指定列 然后点击导出按钮即可导出,不过现在还没完成。 穿梭框主要代码: <fieldset class="layui-elem-field layui-field-title" style="margin-top: 20px;"> <legend>文件导出</l 阅读全文
posted @ 2021-12-03 11:25 风吹过半夏 阅读(150) 评论(0) 推荐(0) 编辑
摘要:首先理解类模式与对象模式的定义: 类模式:处理类与子类的关系,关系通过继承建立,在编译时就被确定了,是静态的。 对象模式:处理对象之间的关系,这些关系在运行时变化,更具动态性。 工厂方法模式的定义中说,将类的实例化操作延迟到子类中完成。返回一个子类对象看似是对象型模式,但是我们来看看工厂方法模式的类 阅读全文
posted @ 2021-11-28 21:29 风吹过半夏 阅读(111) 评论(0) 推荐(0) 编辑
摘要:今日做hadoop实验时突然有一个节点连接不上,很是头疼,前几天还好好的。 重启网络服务: service network restart 报错: Restarting network (via systemctl): Job for network.service failed. See ‘sys 阅读全文
posted @ 2021-11-26 15:14 风吹过半夏 阅读(645) 评论(0) 推荐(0) 编辑
摘要:1. #各类文章数统计 def class_text_num(): sql="SELECT count(channelName) as num,channelName FROM new_class.newdata group by channelName;" res=query_mysql(sql) 阅读全文
posted @ 2021-11-25 22:48 风吹过半夏 阅读(28) 评论(0) 推荐(0) 编辑
摘要:1.将多工作表分开 2.数据库建表 3.利用pandas存入数据库 file_path = "data/其他.xlsx" df = pd.read_excel(file_path) print(df.shape[0]) print(df.iloc[0,:]["content"]) for i in 阅读全文
posted @ 2021-11-25 22:43 风吹过半夏 阅读(22) 评论(0) 推荐(0) 编辑
摘要:实现了在查看表的时候,初步分析数据,对数值型数据进行一些分析:计算标准差,平均值,最大值,最小值等,效果: 主要利用pandas的describe函数,读取数据库,进行分析 读取数据库: def pymysql_conn(): conn = pymysql.connect( host="127.0. 阅读全文
posted @ 2021-11-24 17:49 风吹过半夏 阅读(36) 评论(0) 推荐(0) 编辑
摘要:file_path="test_data/IMDB-Movie-Data.csv" df=pd.read_csv(file_path) print(df.head(1)) print(df.info()) #rating runtime分布情况 #选择图形,直方图 #准备数据 runtime_dat 阅读全文
posted @ 2021-11-22 22:50 风吹过半夏 阅读(26) 评论(0) 推荐(0) 编辑
摘要:最近用C++写设计模式,遇到了很多问题,在此总结。 1.C++类定义中,数据成员不能被指定为自身类型,但可以是指向自身类型的指针或引用 首先要明白类的定义与声明的区别 类的声明: class A; 类的定义: class A { string a; } 当用实例化一个类的对象时,编译器会根据类的定义 阅读全文
posted @ 2021-11-21 15:19 风吹过半夏 阅读(43) 评论(0) 推荐(0) 编辑
摘要:设计模式的定义: 设计模式是一套被反复使用的、多数人知晓的、经过分类编目的、代码实际经验的总结,使用设计模式是为了可重用代码。让代码更容易的被他人理解、保证代码的质量。 设计模式的要素: 模式名称,问题,目的,解决方案,效果,示例代码,相关设计模式 1.模式名称: 模式名称通过一两个词来描述模式的问 阅读全文
posted @ 2021-11-20 17:43 风吹过半夏 阅读(55) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示