2017年9月24日

Spark-SQL连接Hive

摘要: 第一步:修个Hive的配置文件hive-site.xml 添加如下属性,取消本地元数据服务: 修改Hive元数据服务地址和端口: 然后把配置文件hive-site.xml拷贝到Spark的conf目录下 第二步:对于Hive元数据库使用Mysql的把mysql-connector-java-5.1. 阅读全文

posted @ 2017-09-24 17:52 WOTGL 阅读(12612) 评论(1) 推荐(1) 编辑

2017年9月22日

自己实现守护进程的功能

摘要: 【需求】 用一个脚本A定时扫描另外一个脚本B,如果挂了则重新启动脚本B 被守护的脚本B:count_predict_file.sh 守护的脚本A:daemon_count_predict_file.sh 后台启动守护脚本 ./daemon_count_predict_file.sh & 参考:htt 阅读全文

posted @ 2017-09-22 16:14 WOTGL 阅读(604) 评论(0) 推荐(0) 编辑

2017年8月31日

最小二乘法

摘要: 看到一篇不错的介绍最小二乘法的博客,其中有个idea很不错,在拟合线性函数的时候,求得的函数跟真实函数或者真实数据之间或多或少都会有一个误差。 图中红色直线就是我们求得的线性函数。 为了表示拟合的函数跟真实数据之间的误差,在函数后面添加了个误差项μ 为了使这个总体误差最小,用残差平方和来表示: 则通 阅读全文

posted @ 2017-08-31 21:41 WOTGL 阅读(463) 评论(0) 推荐(0) 编辑

统计学习方法[6]——逻辑回归模型

摘要: 统计学习方法由三个要素组成:方法=模型+策略+算法 模型是针对具体的问题做的假设空间,是学习算法要求解的参数空间。例如模型可以是线性函数等。 策略是学习算法学习的目标,不同的问题可以有不同的学习目标,例如经验风险最小化或者结构风险最小化。 经验风险最小化中常见的损失函数有:0-1损失函数、残差损失函 阅读全文

posted @ 2017-08-31 16:36 WOTGL 阅读(1594) 评论(0) 推荐(0) 编辑

2017年8月21日

window上安装MySQL

摘要: 一、安装MySQL 1.1 下载解压缩版的安装包,解压,然后配置环境变量 PATH=.......;D:\Program Files (x86)\mysql-5.5.27-win32\bin (注意是追加,不是覆盖) 1.2 设置配置文件 在D:\Program Files (x86)\mysql- 阅读全文

posted @ 2017-08-21 09:30 WOTGL 阅读(171) 评论(0) 推荐(0) 编辑

2017年8月12日

代理登录功能

摘要: 为了给别人提供账号密码以便xx,同时又为了防止账号密码被对方篡改,于是想做一个自己的登录页面,自己设计一套非真实的账号密码,然后别人通过在我的网页上登录我设计的账号密码,通过我的验证后我再来提供xx服务。 方案一:模拟HTTP请求 这是一开始最先想到的方案,于是通过fiddler,wireshark 阅读全文

posted @ 2017-08-12 21:18 WOTGL 阅读(698) 评论(0) 推荐(0) 编辑

2017年7月4日

HtmlUnit爬取Ajax动态生成的页面内容

摘要: HtmlUnit说白了就是一个浏览器,这个浏览器是用Java写的无界面的浏览器,正因为其没有界面,因此执行的速度还是可以滴。 HtmlUnit提供了一系列的API,这些API可以干的功能比较多,如表单的填充,表单的提交,模仿点击链接,由于内置了Rhinojs引擎,因此可以执行JavaScript 之 阅读全文

posted @ 2017-07-04 12:45 WOTGL 阅读(693) 评论(0) 推荐(0) 编辑

2017年7月3日

爬虫中动态的POST参数

摘要: 爬虫的过程中,有的网站提交POST数据时候每次都会带上不懂POST参数,要想爬到数据首先的知道怎么构造这些动态的参数。 1、分析提交POST数据的最原始网页,分析原始网页的源代码,查找里面是否包含有你要的POST参数,通常这种标签是隐藏的。 网站的这种保护措施算比较初级简单,你每次访问原始网页,服务 阅读全文

posted @ 2017-07-03 16:41 WOTGL 阅读(649) 评论(0) 推荐(0) 编辑

2017年5月8日

用PDFMiner从PDF中提取文本文字

摘要: 1、下载并安装PDFMiner 从https://pypi.python.org/pypi/pdfminer/下载PDFMineer 加压并安装 2、提取文本文字 3、测试结果 【1】http://www.unixuser.org/~euske/python/pdfminer/#source 【2】 阅读全文

posted @ 2017-05-08 20:05 WOTGL 阅读(7436) 评论(1) 推荐(2) 编辑

2017年4月21日

朴素贝叶斯分类

摘要: 朴素贝叶斯分类 原理 贝叶斯最基本的思想就是条件概率公式+条件独立假设+贝叶斯估计。 因为条件假设是一个较强的假设,因此称作朴素贝叶斯法。 它的思想有点类似于奥卡姆剃刀原理,举个例子,当前眼前走过一个黑人的时候,为你他是那里人,你第一眼想到的是他是个非洲人。因为非洲人普遍皮肤黑。 贝叶斯分类思想与此 阅读全文

posted @ 2017-04-21 21:55 WOTGL 阅读(519) 评论(0) 推荐(0) 编辑

导航