12 2021 档案
摘要:今天大三上的课程正式结束,验收也正式结束。回想大三上这几个月以来学习了不少东西,hadoop,hive,hbase,mapreduce,pandas等等,主要训练了对大数据的清洗,以及前台的展示。大作业主要是对数据文件的上传导出以及数据字典,数据清洗。 总之不管完成的怎么样,最起码样子是有了,也是学
阅读全文
摘要:估算来自哪里:所有的估算都以问题的模型为基础﹑但在我们过深地卷入建模技术之前,我们必须先提及一个基本的估算诀窍、它总能给出好的答案:去问已经做过这件事情的人.在你·头创进建模之前.仔细在周围找找也曾处在类似情况下的人.看看他们的问题是怎么解决的你不大可能找到完全相符的案例.似你会惊奇有多少次.你能够
阅读全文
摘要:点击结果查看并导出即可查看清洗后的结果,清洗后数据会先保存到数据库中,然后可以通过穿梭框将要导出的属性列导出为excel 文件导出利用是原先的原始表数据导出,与之前的原理一摸一样,保存到数据库也与最一开始的文件上传并导入到数据库原理一样 #清洗数据存入数据库 def data_clean_save(
阅读全文
摘要:原型与便笺 许多不同的行业都使用原型试验具体的想法:与完全的制作相比.制作原型要便宣得多惇例如.轿车制造商可以制造某种新车设计的许多不同的原型.每一种的设i计I.i的都是要测试轿车的某个只体的方面——空气动万学、样式、结构特征.等等也许会制造·个粘土模型.用于风洞测试,也许会为工艺部门制造一个轻木和
阅读全文
摘要:这次实现了缺省值处理部分内容,主要有将缺省值按中位数,平均值补全。将缺省行或者列去掉。 #缺省值补全 @app.route('/data_clean_supply') def data_clean_supply(): supply_type = request.values.get("supply_
阅读全文
摘要:5.7 how much 5.7.1 计算相关系数(票房相关系数矩阵) clean_tmdb_5000_movies = "static/data/clean_df_tmdb_5000_movies.csv" # 显示所有列 pd.set_option('display.max_columns',
阅读全文
摘要:5.6 how 5.6.1 原创 VS 改编占比(饼图) 在查看属性列并没有发现有“改编“这一列一时间不知道如何分辨是否是改编。 但是百度以后发现keywords这一属性列中有based on代表是改编。于是问题解决了: clean_tmdb_5000_movies = "static/data/c
阅读全文
摘要:5.4 where 本数据集收集的是美国地区的电影数据,对于电影的制作公司以及制作国家,在本次的故事 背景下不作分析。 5.5 who 5.5.1 分析票房分布及票房 Top10 的导演 先统计除各个制片公司的电影数量和: #production_companies制片公司 clean_tmdb_5
阅读全文
摘要:曳光弹,在黑踣中用机枪射击有两种方式,你可以找出!标的确切位.置(射程、仰角及)位)你可以确定环境状况(温度、湿度、气压、风,等等)你可以确定你使用的弹药筒和了弹的精确规格.以及它们j你使用的机枪的交互作用﹐然后你可以用计算表或射击计算机计算枪管的确切方向及仰角﹐如果每一样东西都严格按照规定的方式工
阅读全文
摘要:5 数据分析 5.1 why 想要探索影响票房的因素,从电影市场趋势,观众喜好类型,电影导演,发行时间,评分与 关键词等维度着手,给从业者提供合适的建议。 5.2 what 5.2.1 电影类型:定义一个集合,获取所有的电影类型 clean_tmdb_5000_movies = "static/da
阅读全文
摘要:今日添加了数据清洗的部分,对原先的结构进行了修改。 在查看已创建表部分增加了查看已清洗表: 现在还没表,数据清洗部分写完后就有表了,已经清洗表的操作与原始数据表一样:这一部分的代码实现重用,主要靠表名与数据库来区分原数据表与已清洗数据表。 今天主要完成了数据清洗的重复值去除与缺省值统计的功能: 先显
阅读全文
摘要:1 导入数据 tmdb_5000_movies="static/data/tmdb_5000_movies.csv" # 显示所有列 pd.set_option('display.max_columns', None) # 显示所有行 pd.set_option('display.max_rows'
阅读全文
摘要:第二章主要讲的是重复,作者告诉我们不要重复。然而重复是怎样发生的呢?作者给出了如下的分类。 强加的重复(imposed duplication)。开发者觉得他们无可选择——环境似乎要求重复 无意的重复(inadvertent duplication)。开发者没有意识到他们在重复信息 无耐性的重复(
阅读全文
摘要:在复习之前学习的pandas代码时发现这句话 df_clean.apply(pd.to_numeric, errors='ignore') 感到十分疑惑,apply()是什么函数,pd.to_numeric又是啥,errors=""有啥作用。 接下来一一解答: 一、map(), apply()和ap
阅读全文
摘要:交流:作为开发者.我们必须在许多层面上进行交流我们把许多小时花在开会、倾听和交谈t..我们与最终用户一起T.作.设法了解他们的需要。我们编写代码,与机器交流我们的意图;把我们的想法变成文档,留给以后的开发者、我们撰写提案和备忘录,用以申请资源并证明其止当性、报告我们的状态.以及提出各种新方法.我们每
阅读全文
摘要:实现了选取指定列导出为excel,上次只实现了获取穿梭框右侧的数据,这次实现了将数据传到后台,导出为excel文件 首先是将数据传到后台,我将数据拼接为字符串传到后台: var getData = transfer.getData('export_select_data'); //将数据进行拼接 v
阅读全文
摘要:首先是利用layui的穿梭框来实现选择指定列 然后点击导出按钮即可导出,不过现在还没完成。 穿梭框主要代码: <fieldset class="layui-elem-field layui-field-title" style="margin-top: 20px;"> <legend>文件导出</l
阅读全文