7月18号day10总结
今天学习过程和小结
今天学会了用git从GitHub上克隆代码然后打包成jar包,然后在idea程序中引入这个jar包的依赖来使用jar包中的程序。
通过这个中的网址:
在Git Bash Here中进行命令行的操作
进入到文件夹下,mvn clean packager然后mvn install导入到maven库中。
在实际程序的pom.xml文件中引入jar包依赖后就可以使用。
使用纯java代码在1万条数据中解析网站这一列信息。先截取这一段中的信息,用带7个“”双引号来识别。然后用wordcount的方法来计算相同的网站次数。
使用MapReduce来解析网站中的数据。先把数据以split传入map中,map以key和value输出,reduce中以key和value输入,然后整合key值相同的。
学习了大数据仓库hive
遇到问题汇总
- 使用jar包是maven中常用的方法,要多加练习
2.MapReduce是最基本的大数据处理方法。
学习技能思维导图