摘要:
分享一篇如何机器学习如何入门的文章。考虑到机器学习是现在挺热门的技术专业,如果你的本科专业是计算机类的,面临着未来方向的一种选择(吐槽一下,计算机类的方向实在是太多了),那么选择一个比较热门的方向去做是非常OK的。这就像生在一个金庸宇宙,所有的人和事都在说会武功这件事多么的爽快、多么的厉害,还要是有 阅读全文
摘要:
要想学好爬虫,必须把基础打扎实,之前发布了两篇文章,分别是使用XPATH和requests爬取网页,今天的文章是学习Beautiful Soup并通过一个例子来实现如何使用Beautiful Soup爬取网页。 什么是Beautiful Soup Beautiful Soup是一款高效的Python 阅读全文
摘要:
之前分享了一篇使用requests库爬取豆瓣电影250的文章,今天继续分享使用xpath爬取猫眼电影热播口碑榜 XPATH语法 XPATH(XML Path Language)是一门用于从XML文件中查找信息的语言。通用适用于从HTML文件中查找数据。工欲善其事必先利其器,我们首先来了解XPATH常 阅读全文
摘要:
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺。 本文通过爬取豆瓣top250电影学习python requests的使用。 1、准备工作 在pycharm中安装request库 请看上图,在pycharm中依次点击:File Settings。然后会弹出下图的界面: 点击2中 阅读全文
摘要:
1、读取cookies 2、将cookies保存在文件中 3、处理异常 URLError和HTTPError类,两个类是父子关系,HTTPError会返回错误代码,两个类都可以处理request模块产生的异常,这两个都有一个reason属性,用于记录出现异常的原因 URLError处理异常: HTT 阅读全文
摘要:
和学习其他编程语言一样,首先要了解一门语言的数据类型。 Python的数据类型有整型、浮点型、字符串、布尔型、日期时间类型、list列表、set集合、tuple元组、dict词典等。 1、整型 就是数学中的整数,包括负整数。 定义整型的方法: Python定义变量的语法和其他的编程语言不一样,例如J 阅读全文
摘要:
传统的关系型数据库有CRUD增删改查操作,同样对于NoSQL列式数据库也有CRUD操作。本文对HBase中常用的Scan、GET、PUT、DELETE操作的用法做个总结。 Put操作 Put相当于传统数据库的add操作,就是在数据库中添加一条或多条记录。 Put操作分为两类,一类是一次操作一条记录, 阅读全文
摘要:
HBase是谷歌BigTble的开源实现。谷歌的三篇论文拉开了大数据江湖的序幕,铸就了现在以Hadoop为主的大数据技术生态圈。而HBase是开源的大数据数据库,和传统的行式数据库不同的是,HBase是列式数据库。列式数据的特点是开源横向扩展,将一张表的数据存储在hadoop集群的不同datanod 阅读全文
摘要:
今天总结本人在使用Hive过程中的一些优化技巧,希望给大家带来帮助。Hive优化最体现程序员的技术能力,面试官在面试时最喜欢问的就是Hive的优化技巧。 技巧1.控制reducer数量 下面的内容是我们每次在hive命令行执行SQL时都会打印出来的内容: 很多人都会有个疑问,上面的内容是干什么用的。 阅读全文
摘要:
在使用Hive的过程中,复制表结构和数据是很常用的操作,本文介绍两种复制表结构和数据的方法。 1、复制非分区表表结构和数据 Hive集群中原本有一张bigdata17_old表,通过下面的SQL语句可以将bigdata17_old的表结构和数据复制到bigdata17_new表: 如果是分区表,则必 阅读全文