09 2015 档案
摘要:(手机的颜色,大小,用户体验来加权统计总体的值)极大似然估计MLE 1.Logistic回归 Logistic regression (逻辑回归),是一种分类方法,用于二分类问题(即输出只有两种)。如用于广告预测,也就是根据某广告被用户点击的可能性,把最可能被用户点击的广告摆在用户能看到的地方,结果是用户要么点击要么不点击。 通常两类使用类别标号0和1表示,0表示不发生,1表示发生。 问题引...
阅读全文
摘要:1. 1、问题的引入 2、一个实例 3、基本概念 4、ID3 5、C4.5 6、CART 7、随机森林 2. 我们应该设计什么的算法,使得计算机对贷款申请人员的申请信息自动进行分类,以决定能否贷款? 一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话: 女儿:多大年纪了? 母亲:26。 女儿:长的帅不帅? 母亲:挺帅的。 女儿:收入高不? 母亲:不算很高,中等情况。 女儿:是公...
阅读全文
摘要:Mahout 的安装Mahout是Hadoop的一种高级应用。运行Mahout需要提前安装好Hadoop,Mahout只在Hadoop集群的NameNode节点上安装一个即可,其他数据节点上不需要安装1.下载2.配置环境变量3.mahout --help检查Mahout是否安装完好,看是否列出了一些...
阅读全文
摘要:mahout 与spark 的一个库结合
阅读全文
摘要:1、简单例子引入 2、先验概率 3、后验概率 4、最小错误率决策 5、最小风险贝叶斯决策 1. 贝叶斯公式 2简单例子 正常情况下,我们可以快速的将街上的人分成男和女两类。这里街上的人就是我们观测到的样本,将每一个人分成男、女两类就是我们做决策的过程。上面的问题就是一个分类问题。 分类可以看作是一种决策,即我们根据观测对样本做出应归属哪一类的决策。 假定我手里...
阅读全文
摘要:1. 语法1.以#号开头的语句是注释2.请务必注意,Python程序是大小写敏感的,如果写错了大小写,程序会报错。3.按照约定俗成的管理,应该始终坚持使用4个空格的缩进。4.当语句以冒号:结尾时,缩进的语句视为代码块。1.缩进方式,一般是4个空格,兼容tab键if a>=0; print(a)els...
阅读全文
摘要:1.基尼系数,是1943年美国经济学家阿尔伯特·赫希曼,根据劳伦茨曲线所定义的判断收入分配公平程度的指标。2.基尼系数不能超过0.5的.才是正常的.
阅读全文
摘要:1.对角矩阵 不在主对角线上的元素全部为0的n阶方阵,称为对角矩阵.2.分块矩阵的对角阵
阅读全文
摘要:1.找出一个附近的点来判断是不是极值点.迭代求(求最小值)(梯度下降法) 2.如果求最大值则改为正号. (梯度上升法)3.随机梯度下降法:一次处理一个样本值4.批处理梯度下降法:一次处理m个样本值
阅读全文
摘要:协同过滤一般是在海量的用户中发掘出一小部分和你品位比较类似的,在协同过滤中,这些用户成为邻居,然后根据他们喜欢的其他东西组成一个排序的目录作为推荐给你.核心问题:1,如何确定一个用户是不是和你有相似品位?2.如何将邻居们的喜好组织成一个排序的目录?步骤:1.收集用户偏好 评分,投票,转发,保存书签...
阅读全文
摘要:奥卡姆剃刀定律(Occam's Razor, Ockham'sRazor)又称“奥康的剃刀”,是由14世纪逻辑学家、圣方济各会修士奥卡姆的威廉(William of Occam,约1285年至1349年)提出。这个原理称为“如无必要,勿增实体”,即“简单有效原理”。
阅读全文
摘要:欠拟合:对样本预测得不好,对新数据预测不好过拟合:对样本预测好,对新数据预测不好.
阅读全文
摘要:1.如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高,这种现象称为过拟合(over-fitting ). 2.过拟合是指学习时选择的模型所包含的参数过多,以致于出现这一模型对已知数据预测得很好,但对未知数据预测很差的现象.3.可以说模型选择旨在避免过拟合并提高模型的预测能力...
阅读全文
摘要:下载jettyhttp://www.eclipse.org/jetty/ 看好jdk 版本安装解压压缩包到指定目录,且将其目录路径定义为${JETTY_HOME}进入${JETTY_HOME}目录,然后运行“java -jar start.jar”,就可以启动Jetty server了启动:java...
阅读全文
摘要:一.启动命令 tar -zxvf solr-4.10.4.tgzcd solr-4.10.4\examplejava -jar start.jar 默认监听8983端口java -Djetty.port=8980 -jar start.jar 指定端口后台启动:java -DSTOP.PORT...
阅读全文
摘要:1.项目架构 2.详细技术点 1.解析,(依赖注入) 2,使用queue队列实现循环抓取 3.实现优先级队列并提取接口 4.使用log4j实现配置检查及日志打印 5.实现多线程爬虫并提取接口 6.实现url调度器 7.使用queue队列实现url随机榨取 8.使用redis队列实现url 随机抓取 10.使用httpclient 实现模拟登录 11.使用curator 监控爬虫的生命周期 1...
阅读全文
摘要:一、常用命令:(hbase shell 进入终端) 1.创建表: create 'users','user_id','address','info' 表users,有三个列族user_id,address,info 2.列出全部表 list 3.得到标的信息 describe‘users’ 4.删除表 disable 'users' drop 'users‘ 5.清空表 trunca...
阅读全文
摘要:1.单机安装 redis官网:http://redis.io/解压:tar -zxvf redis-3.0.0.tar.gz编译、安装makemake install拷贝配置文件cp redis/redis.conf /etc/修改配置文件redis.confdaemonize yes(后台运行)logfile /usr/local/redis/log(日志文件)启动redis-serve...
阅读全文
摘要:redis的常用命令主要分为两个方面、一个是键值相关命令、一个是服务器相关命令(redis-cli进入终端)1、键值相关命令keys * 取出当前所有的keyexists name 查看n是否有name这个keydel name 删除key name expire confirm 100 设置con...
阅读全文
摘要:jdk.tools:jdk.tools是与JDK一起分发的一个JAR文件,可以如下方式加入到Maven项目中: jdk.tools jdk.tools 1.7 system ${JAVA_HOME}/lib/tools.jar详见Maven FAQ for adding dependencies t...
阅读全文
摘要:接口的作用 1.在spide中创建一个私有接口 private Downloadable downlaodable 覆盖set get 方法 创建一个方法 Public Page down load (String url) { Page page = this.downloadable.download(url);//在这里传值 } 2然后Downloadable 接口中定义方法 P...
阅读全文
摘要:http://www.python()tab.com/html/2013/pythonjichu_1010/582.html ()需要删除
阅读全文
摘要:http://v.koolearn.com/c/2285-1.html
阅读全文
摘要:1.木桶效应(猪一样的队友) 2.羊群效应(从中) 3.马太效应() 沙丁鱼-鲶鱼 4.蝴蝶效应
阅读全文
摘要:1.内存文件存储系统 Tachyon是一个开源分布式存储系统,拥有高性能、高容错等优点。并具有类Java的文件API、插件式的底层文件系统、兼容Hadoop MapReduce和 Apache Spark 等特征。Tachyon能够为集群框架(如Spark、MapReduce等)提供内存级速度的跨集群文件共享服务,官方号称最高比HDFS吞吐量高300倍。诞生于Berkeley的AMPLab实验室...
阅读全文
摘要:http://news.cnblogs.com/n/528978/
阅读全文
摘要:主要内容: 回归 1.线性回归 2.Logistic回归 最优问题: 1.梯度下降 2.牛顿法 3.拟牛顿法 了解参数学习算法和非参数学习算法的区别 高斯分布(正态分布) 1. 2.线性回归 考虑2个变量 多变量的情形 3.最小二乘的目标函数 m为样本个数,则一个比较“符合常理”的误差函数为: 符合常理 n最小二乘建立的目标函数,即是在噪声为均值为0的高斯分布下,极大...
阅读全文
摘要:1.du获取某个目录下各个文件和子目录占用多少空间,可以输入:du -sh *
阅读全文
摘要:20.共轭函数 21.凸优化 优化问题的基本形式 告诉几个等式约束求最值 局部最优问题 22.非凸优化问题的变形 23.对偶问题 24.Lagrange对偶函数(dual function) Lagrange 对偶函数 若没有下确界,定义: 根据定义,显然有:对∀λ>0,∀v,若原优化问题有最优值p*,则 进一步:Lagrange对偶函数为凹...
阅读全文
摘要:2015-09-09 今天买的凸优化刚到。从今天开始学习一些基础的概念。不知道2年的时间能不能学会并且解决实际的问题。 线性函数需要严格满足等式,而凸函数仅仅需要在a和b取特定值得情况下满足不等式。因此线性规划问题也是凸优化问题,可以将凸优化看成是线性规划的扩展。 1.放射集 定义:过集合C内任意两点的直线均在集合C内,则称集合C为仿射集。 例子:直线、平面、超平面 2.仿射包 定...
阅读全文
摘要:1. 匿名内部类: new Car().num = 5; 调用属性无意义 匿名对象使用方式一:当对对象的方法只调用一次时,可以用匿名对象来完成,这样写比较简化。 如果对一个对象进行多个成员调用,必须给这个对象起个名字。 匿名对象使用方式二:可以将匿名对象作为实际参数进行传递。 2.封装: 1.private : 私有,权限修饰符:用于修饰类中的成员(成员变量,成员函数)。私有只在本类中有效。 ...
阅读全文
摘要:一、nutch简介 nutch是大名鼎鼎的Doug Cutting发起的爬虫项目,nutch孵化了现在大数据处理框架Hadoop。在nutch V 0.8.0 版本之前,Hadoop是nutch的一部分,从nutch V0.8.0开始,HDFS和MapReduce从nutch中剥离出成为Hadoop。v0.8.0之后,nutch就完全构建在Hadoop的基础之上了。 Nutch是一个开源的网络爬...
阅读全文
摘要:问题来源与七月学习之 (3.x线性代数与矩阵运算基础)
阅读全文
摘要:http://ask.julyedu.com/article/32
阅读全文
摘要:Sqoop课程笔记 一、概述 1、什么是sqoop? Hadoop的优势在于对数据的存储和处理,相比以前传统的数据库,在处理较较多的数据时,传统数据行业通过提升单机性能以提高处理性能,而且性价比随着性能提高越来越低,在场景下派生出的大数据行业。 同样的数据处理,hadoop无论是处理的性能和成本都远低于传统通过单机处理,但是从传统的数据处理切换到新生的hadoop平台,避免不了有数据迁移的过程,需...
阅读全文
摘要:一、安装: 1 解压然后把mysql的驱动放在$SQOOP_HOME/lib 目录中2. conf/sqoop-en.sh export HADOOP_COMMON_HOME=/home/hadoop/hadoop/hadoop-2.3.0export HADOOP_MAPRED_HOME=/home/hadoop/hadoop/hadoop-2.3.0 注意事项 1.数据库驱动:在执行s...
阅读全文
摘要:加入一个新的存储节点和删除一个计算节点需要刷新集群状态命令 方式1:静态添加datanode,停止namenode方式 1.停止namenode 2.修改slaves文件,并更新到各个节点3.启动namenode 4.执行hadoop balance命令。(此项为balance集群使用,如果只是添加节点,则此步骤不需要) ----------------------------------...
阅读全文
摘要:1.pig与hive的区别 pig和hive比较类似的,都是类sql的语言,底层都是依赖于hadoop 走的mapreduce任务。 pig和hive的区别就是,想要实现一个业务逻辑的话,使用pig需要一步一步操作 而使用hive的话一条SQL就可以搞定。 如果想在很短时间内获取一个比较复杂的业务逻辑处理结果的话,建议使用pig。 如果需要定时执行的一些任务,建议使...
阅读全文
摘要:大数据之pig安装 1.下载 pig download 2. 解压安装 mapreduce模式安装: 1:设置HADOOP_HOME,如果pig所在节点不是集群中的节点,那就需要把集群中使用的hadoop的安装包拷贝过来一份。 export HADOOP_HOME=/usr/local/hadoop-2.6.0 2:创建一个文件夹,cluster-conf,里面保存的是hadoo...
阅读全文