摘要: 前言:今年借着智能网络运维的机会,逐步基础到了AIOPS,而AIOPS其中很大一部分就是机器学习,所以通过网络日志数据分析的机会,想实现对于异常流量的判断(主要针对防火墙、出口设备等),借着大数据的东风,扎扎实实落地一些具体的场景。 1.机器学习概念 机器学习(Machine Learning, M 阅读全文
posted @ 2019-02-18 22:48 Chris-Hu 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 网页内容的解析可以说是爬虫最主要和最核心的工作,从一堆看似杂乱的代码中获取我们需要的信息,这就是爬虫的本质。python对于网页解析提供了很多的方式,传统的即通过urllib2包获取网页代码,再通过re正则表达式模块自己写规则来获取信息。第三方的包也有,类似pyquery、lxml、Beautifu... 阅读全文
posted @ 2015-02-15 16:36 Chris-Hu 阅读(1045) 评论(0) 推荐(1) 编辑
摘要: scrapy作为一个用python编写的网络爬虫,继承了python简单易用的特点,目前已经在很多项目中所使用。这里也是因为工作中的需要,把scrapy使用过程中的一些心得和遇到的问题记录下来以便加深记忆。scrapy安装的过程就不在这里详述了,大家安装都会碰到各种不同的问题,主要还是因为pytho... 阅读全文
posted @ 2015-02-12 17:52 Chris-Hu 阅读(1078) 评论(0) 推荐(0) 编辑
摘要: 昨天早上,开发人员抱怨系统很慢,可以运行但运行效率比之前慢很多,大量的提交动作卡住不动,系统呈假死状态。赶紧登录数据库服务器查看情况,首先定位数据库的系统资源(主要是cpu)的消耗情况,通过top命令查看,发现系统CPU和内存这块都正常,未出现瓶颈现象,再次思考,难道是某张或几张主表被锁导致业务阻塞? 带着这个疑问,分别查看了v$session_wait,v$lock两张表,发现v$session_wait里面大量的“SQL*Net message from client”等待事件,且wait_type为“IDLE”,也就是空间等待。查询v$lock表,通过CTIM排序也发现类似的情况,有几. 阅读全文
posted @ 2014-03-04 16:31 Chris-Hu 阅读(346) 评论(0) 推荐(0) 编辑
摘要: 1.可测量数据和不可测量数据 从数据的本质上来说,统计学里将其分为可测量数据和不可测量数据,用更通俗的描述也就是数值类数据和分类数据。举个例子,人的身高是可以测量的,也就是有一个具体值的,比如178cm,179cm,是有一个固定的标准可以用工具计算出来的,此类即为可测量数据(数值类),还有一类数据,比如居住的地区,这类数据是主观上用来分类的,并没有一个固定的公式或工具计算,此类即为不可测量数据(分类数据)。2.分组、组中值、次数和相对次数 统计学中,会将原始数据按照一定的规则分成几个观测组,比如将人群按照年龄划分,0-10岁一组,10-20岁一组,20-30岁一组,每组作为一个单独的数据实体进 阅读全文
posted @ 2014-03-04 14:12 Chris-Hu 阅读(1306) 评论(0) 推荐(0) 编辑
摘要: 今年随着业务的需要,对于数据的要求不仅仅是存储和管理,更重要的是需要对大量数据进行分析、加工最后再决策,有鉴于此报了一门课程《SAS数据分析与挖掘》,现将学习过程中的一些心得体会记录在此,以鞭策和激励自己。上图是一个典型的数据六层的模型,按照数据的形态依次可分为:数据源----数据仓库/数据集市----数据分析----数据挖掘----数据展示----决策 其中传统公司的DBA可能涉及的层次是最下面的2层,即 数据源(Oracle、SqlServer、MySql)和数据仓库/数据集市,至于上面的数据分析、数据挖掘这些,大多数的数据库人员都接触不到,因为这些已经涉及到业务的层面了,此次的SAS主. 阅读全文
posted @ 2013-02-21 11:12 Chris-Hu 阅读(435) 评论(0) 推荐(0) 编辑
摘要: 最近在看数据库调优方面的资料,数据表的几种扫描方式之前也看过,但一直没有做一个详细的记录来明确这些,这次借这个机会好好学习和整理一下。1.Full Table Scans(全表扫描)这种方式是访问表最普通的方式,会扫描数据表位于高水位线之下的所有数据块。发生在没有过滤条件、缺乏主键和索引的情况下对表的访问。全表扫描是多块读,也就是一次读取多个数据块,读取的块的个数取决于DB_FILE_MULTIBLOCK_READ_COUNT 这个参数设置,同时还受操作系统的文件块大小的限制,一次读取的数据块的大小之和不能超过当前操作系统的文件块大小。2.Rowid Scans通过ROWID的方式扫描全表一. 阅读全文
posted @ 2013-02-19 13:51 Chris-Hu 阅读(2350) 评论(0) 推荐(0) 编辑