上一页 1 2 3 4 5 6 ··· 11 下一页
摘要: 昨天爬取了丁香园的实时更新的动态信息,但是里面有好多对项目无关的信息(如下图),所以就要进行数据的清洗, 想到了python的正则表达式,就对正则表达式进行了学习,现进行如下总结: 首先,python中的正则表达式大致分为以下几部分: 元字符 模式 函数 re 内置对象用法 分组用法 环视用法 一、 阅读全文
posted @ 2020-02-09 22:57 K_Y 阅读(106) 评论(0) 推荐(0) 编辑
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2020-02-09 00:33 K_Y 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 经过几天的学习,今天终于完成了首都之窗的数据爬取,现在进行一下总结: 首都之窗的爬取我进行里两步: 一,使用selenium模拟浏览器翻页,爬取列表页上的信息,主要是各个详情页的url(详细说明请看上篇博客) spider.py 1 # -*- coding: utf-8 -*- 2 import 阅读全文
posted @ 2020-02-07 22:51 K_Y 阅读(111) 评论(0) 推荐(0) 编辑
摘要: 经过再一次较为系统的学习,终于通过自己的编程实现了 统计最受欢迎的视频/文章的Top10访问次数 (video/article) 实现过程为两次使用MapReduce: 第一次对数据进行处理,留取视频、文章的ID为Key值,总的访问次数为Value值; 第二次对数据进行排序处理,统计最受欢迎的视频或 阅读全文
posted @ 2019-11-27 00:51 K_Y 阅读(206) 评论(0) 推荐(0) 编辑
摘要: 1、在Windows本地通过java程序对现有日志信息进行清洗得到,想要的数据结构; 2、通过hive语句 create external table if not exists result(ip string,day string,traffic bigint,type string,id st 阅读全文
posted @ 2019-11-13 23:47 K_Y 阅读(142) 评论(0) 推荐(0) 编辑
摘要: 环境: hadoop3.2.0; hive2.3.6; jdk1.8 hive安装时,要注意hadoop版本和jdk版本; 最初,安装的hadoop版本为3.2.0,所以安装了hive3.1.2;安装之后启动hive报错 Exception in thread “main" java.lang.Un 阅读全文
posted @ 2019-11-13 21:10 K_Y 阅读(276) 评论(0) 推荐(0) 编辑
摘要: Hive installing!!! 阅读全文
posted @ 2019-11-13 19:52 K_Y 阅读(76) 评论(0) 推荐(0) 编辑
摘要: 本学期收获最大的三项内容: 一:团队合作开发的基础方式,通过本学期的学习以及团队合作,对目前团队项目的开发流程有了大概的认识,为在以后的就业中开发团队中工作打下了基础; 二:对敏捷开发方式有了基本的认识,为以后的项目开发打下了基础; 三:对软件行业及软件开发的整体流程具有了清楚的认识,方便了以后在项 阅读全文
posted @ 2019-06-19 20:06 K_Y 阅读(119) 评论(0) 推荐(0) 编辑
摘要: 实验要求: 大家经常玩成语接龙游戏,我们试一试英语的接龙吧:一个文本文件中有N 个不同的英语单词, 我们能否写一个程序,快速找出最长的能首尾相连的英语单词链,每个单词最多只能用一次。最长的定义是:最多单词数量,和单词中字母的数量无关。 统一输入文件名称:input1.txt, input2.txt 阅读全文
posted @ 2019-06-08 17:29 K_Y 阅读(155) 评论(0) 推荐(0) 编辑
摘要: 每个人评价一下大家手头正在使用输入法或者搜索类的软件产品。 从用户界面、记住用户选择、短期刺激、长期使用的好处坏处、不要让用户犯简单的错误 我将用的输入法为搜狗输入法 用户界面:从我个人角度来看,搜狗输入法界面满足了大多数人的使用要求,还算美观;用户体验良好 记住用户选择:记住了我在安装时的所有设置 阅读全文
posted @ 2019-06-01 18:10 K_Y 阅读(108) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 11 下一页