上一页 1 ··· 35 36 37 38 39 40 41 42 43 ··· 99 下一页
摘要: https://www.w3cschool.cn/hive_manual/ 一、简述 HiveQL是一种声明式语言,用户提交查询,而Hive会将其转换成MapReduce job,如下图。一般来说大部分时间可以无视这个执行过程的内部逻辑,但是如果能了解这些底层实现细节,在调优的时候就会更得心应手。 阅读全文
posted @ 2022-03-19 14:51 hanease 阅读(214) 评论(0) 推荐(0) 编辑
摘要: https://www.w3cschool.cn/apache_pig/ 什么是Apache Pig? Apache Pig是MapReduce的一个抽象。它是一个工具/平台,用于分析较大的数据集,并将它们表示为数据流。Pig通常与 Hadoop 一起使用;我们可以使用Apache Pig在Hado 阅读全文
posted @ 2022-03-18 21:42 hanease 阅读(112) 评论(0) 推荐(0) 编辑
摘要: 1.用R计算数据基本统计量(均值) 学习机器学习和数据挖掘中的各种算法和模型,需要掌握统计学的基本概念。统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,并预测对象未来走势的一门综合性科学。 简单说,统计学是根据样本估计总体的科学。它的一些思想和大数据思想有些相悖,不关注数据的大小, 阅读全文
posted @ 2022-03-18 21:37 hanease 阅读(871) 评论(0) 推荐(0) 编辑
摘要: Storm结构概述 主流的三大分布式计算系统:Hadoop,Spark和Storm 由于Google没有开源Google分布式计算模型的技术实现,所以其他互联网公司只能根据Google三篇技术论文中的相关原理,搭建自己的分布式计算系统。 Yahoo的工程师Doug Cutting和Mike Cafa 阅读全文
posted @ 2022-03-18 21:08 hanease 阅读(84) 评论(0) 推荐(0) 编辑
摘要: python url网址拼接 在做爬虫中,经常会遇到需要把一个域名和网址路径进行拼接,在开发时一时没想到方法,特此记录下来。 利用parse.urljoin方法进行网址拼接 from urllib import parse print(parse.urljoin("http://www.chenxm 阅读全文
posted @ 2022-03-17 09:17 hanease 阅读(147) 评论(0) 推荐(0) 编辑
摘要: 熟练使用Python常用框架Django/Tornado/Flask,熟悉Restful API; 了解分布式和微服务设计理念,熟练掌握常用的分布式开发框架,了解Kafka, Zookeeper,Redis等开源中间件。 需具备独立数据库设计并且调优的能力; 有良好的编码习惯,对代码和设计质量有严格 阅读全文
posted @ 2022-03-17 09:07 hanease 阅读(24) 评论(0) 推荐(0) 编辑
摘要: Python:正则匹配网址中的数字 第一种利用re.match url="https://baike.baidu.com/item/%E6%9D%8E%E7%99%BD/1043?fr=kg_hanyu" baike_id=re.match("https://baike.baidu.com/item 阅读全文
posted @ 2022-03-17 09:07 hanease 阅读(143) 评论(0) 推荐(0) 编辑
摘要: crontab crontab的服务进程名为crond,英文意为周期任务。crontab在Linux主要用于周期定时任务管理。通常安装操作系统后,默认已启动crond服务。crontab可理解为cron_table,表示cron的任务列表。类似crontab的工具还有at和anacrontab,但具 阅读全文
posted @ 2022-03-17 08:55 hanease 阅读(6419) 评论(0) 推荐(0) 编辑
摘要: python xlrd读取excel(表格)详解 安装: pip install xlrd 官网地址: https://xlrd.readthedocs.io/ 介绍: 为开发人员提供一个库,用于从Microsoft Excel(tm)电子表格文件中提取数据。 快速使用xlrd import xlr 阅读全文
posted @ 2022-03-16 20:28 hanease 阅读(9555) 评论(0) 推荐(1) 编辑
摘要: http://c.biancheng.net/ml_alg/ Python机器学习 就当下而言,Python 无疑是机器学习领域最火的编程语言,这得益于 Python 对科学计算的强大支持。因此,本套教程中关于机器学习算法的代码均采用 Python 机器学习库 sklearn 编写。机器学习的最主要 阅读全文
posted @ 2022-03-15 21:31 hanease 阅读(214) 评论(0) 推荐(0) 编辑
上一页 1 ··· 35 36 37 38 39 40 41 42 43 ··· 99 下一页