alunbar

2018年11月29日

摘要：分享一篇如何机器学习如何入门的文章。考虑到机器学习是现在挺热门的技术专业，如果你的本科专业是计算机类的，面临着未来方向的一种选择（吐槽一下，计算机类的方向实在是太多了），那么选择一个比较热门的方向去做是非常OK的。这就像生在一个金庸宇宙，所有的人和事都在说会武功这件事多么的爽快、多么的厉害，还要是有阅读全文

posted @ 2018-11-29 20:59 alunbar 阅读(1593) 评论(0) 推荐(1) 编辑

2018年11月26日

一起学爬虫——使用Beautiful Soup爬取网页

摘要：要想学好爬虫，必须把基础打扎实，之前发布了两篇文章，分别是使用XPATH和requests爬取网页，今天的文章是学习Beautiful Soup并通过一个例子来实现如何使用Beautiful Soup爬取网页。什么是Beautiful Soup Beautiful Soup是一款高效的Python 阅读全文

posted @ 2018-11-26 14:02 alunbar 阅读(3009) 评论(0) 推荐(0) 编辑

2018年11月21日

一起学爬虫——使用xpath库爬取猫眼电影国内票房榜

摘要：之前分享了一篇使用requests库爬取豆瓣电影250的文章，今天继续分享使用xpath爬取猫眼电影热播口碑榜 XPATH语法 XPATH(XML Path Language)是一门用于从XML文件中查找信息的语言。通用适用于从HTML文件中查找数据。工欲善其事必先利其器，我们首先来了解XPATH常阅读全文

posted @ 2018-11-21 20:33 alunbar 阅读(2315) 评论(2) 推荐(1) 编辑

2018年11月19日

一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用

摘要：学习一门技术最快的方式是做项目，在做项目的过程中对相关的技术查漏补缺。本文通过爬取豆瓣top250电影学习python requests的使用。 1、准备工作在pycharm中安装request库请看上图，在pycharm中依次点击：File Settings。然后会弹出下图的界面：点击2中阅读全文

posted @ 2018-11-19 10:04 alunbar 阅读(12806) 评论(5) 推荐(3) 编辑

2018年11月14日

一起学爬虫——urllib库常用方法用法总结

摘要： 1、读取cookies 2、将cookies保存在文件中 3、处理异常 URLError和HTTPError类，两个类是父子关系，HTTPError会返回错误代码，两个类都可以处理request模块产生的异常，这两个都有一个reason属性，用于记录出现异常的原因 URLError处理异常： HTT 阅读全文

posted @ 2018-11-14 09:18 alunbar 阅读(858) 评论(0) 推荐(1) 编辑

2018年11月8日

一起学Python——数据类型详解

摘要：和学习其他编程语言一样，首先要了解一门语言的数据类型。 Python的数据类型有整型、浮点型、字符串、布尔型、日期时间类型、list列表、set集合、tuple元组、dict词典等。 1、整型就是数学中的整数，包括负整数。定义整型的方法： Python定义变量的语法和其他的编程语言不一样，例如J 阅读全文

posted @ 2018-11-08 08:28 alunbar 阅读(507) 评论(0) 推荐(0) 编辑

2018年10月24日

一起学HBase——总结HBase中的PUT、GET、DELETE操作

摘要：传统的关系型数据库有CRUD增删改查操作，同样对于NoSQL列式数据库也有CRUD操作。本文对HBase中常用的Scan、GET、PUT、DELETE操作的用法做个总结。 Put操作 Put相当于传统数据库的add操作，就是在数据库中添加一条或多条记录。 Put操作分为两类，一类是一次操作一条记录，阅读全文

posted @ 2018-10-24 11:38 alunbar 阅读(2334) 评论(0) 推荐(0) 编辑

2018年10月20日

一起学HBase——简单介绍HBase各种组件

摘要： HBase是谷歌BigTble的开源实现。谷歌的三篇论文拉开了大数据江湖的序幕，铸就了现在以Hadoop为主的大数据技术生态圈。而HBase是开源的大数据数据库，和传统的行式数据库不同的是，HBase是列式数据库。列式数据的特点是开源横向扩展，将一张表的数据存储在hadoop集群的不同datanod 阅读全文

posted @ 2018-10-20 21:52 alunbar 阅读(2454) 评论(0) 推荐(1) 编辑

2018年10月18日

一起学Hive——总结常用的Hive优化技巧

摘要：今天总结本人在使用Hive过程中的一些优化技巧，希望给大家带来帮助。Hive优化最体现程序员的技术能力，面试官在面试时最喜欢问的就是Hive的优化技巧。技巧1.控制reducer数量下面的内容是我们每次在hive命令行执行SQL时都会打印出来的内容：很多人都会有个疑问，上面的内容是干什么用的。阅读全文

posted @ 2018-10-18 09:02 alunbar 阅读(7149) 评论(0) 推荐(3) 编辑

2018年10月14日

一起学Hive——总结复制Hive表结构和数据的方法

摘要：在使用Hive的过程中，复制表结构和数据是很常用的操作，本文介绍两种复制表结构和数据的方法。 1、复制非分区表表结构和数据 Hive集群中原本有一张bigdata17_old表，通过下面的SQL语句可以将bigdata17_old的表结构和数据复制到bigdata17_new表：如果是分区表，则必阅读全文

posted @ 2018-10-14 21:31 alunbar 阅读(12697) 评论(0) 推荐(0) 编辑

公告