摘要:
问题描述 titanic讲的是在titanic灾难发生时,船上不同人的生还率。给出的训练集是一个csv文件,包含船上乘客的年龄,性别,船票位置,家庭成员关系等,然后最终的结果是二元分析,遇难或者生还,0或1。 分析训练集 开始先有个对数据集大致的印象,然后类似于数据库中的group by,分析一些重 阅读全文
摘要:
问题描述 speech recognize是kaggle上1,2年前的一个赛题,主要描述的是如果在各种环境中识别出简单的英文单词发音,比如bed,cat,right之类的语音。提供的训练集是.wav格式的语音,解压后数据集大小在2G左右。 训练集分析 语音识别相对图片识别来说,是一个区别较大的领域。 阅读全文
摘要:
查看集群状态 或者也可以直接在gp集群里用sql查询 查看集群节点和实例的状态,发现有一台机子挂掉掉了,需要恢复节点和实例的状态。保守起见,在晚上没人用的时候停库恢复。 集群启动 生成恢复文件 恢复 全部Synchronized后,改回节点状态 在集群恢复同步的过程中,可以通过 gpstate m查 阅读全文
摘要:
MNIST(Modified National Institute of Standards and Technology) MNIST被称作是计算机视觉的新手村,相当于神经网络CNN版的helloword,也是TensorFlow的初体验。提供的数据集是28 28的灰度矩阵,要分析并识别出对应原来 阅读全文
摘要:
####Kaggle房价预测 作为Kaggle竞赛中的经典入门题目,我主要在kernels中学习其他人分析和处理数据的流程,首先是通过各类plt的图表,分析数据特征和房价之间的相关性 ####载入数据集 df_train = pd.read_csv('./input/train.csv') df_t 阅读全文
摘要:
+ "线性回归" + "决策树" + "人工神经网络" + "聚类分析" + "关联规则" 线性回归(Linear Regression) 连续变量 损失函数(似然函数) 预测函数和实际值误差的平方尽可能小 $$J(\theta)=\frac{1}{m}\sum_{i=1}^m\frac{1}{2} 阅读全文
摘要:
发现问题 在爬虫下载过程中,执行一段时间后都会异常终止,下次必须kill掉进程重新运行 ,看能否优化并减少手动操作 错误日志分析 收集了nohup.out文件,发现主要错误是的数组下标越界,推测可能的问题为: 1)网络不稳定,http请求不通。 2)网络请求成功,但是html表单解析失败。 3)登录 阅读全文
摘要:
+ "高数" + "微分" + "积分" + "空间几何" + "概率论" + "概率论" + "数理统计" + "线代" 偏导数 多元函数,其他变量保持恒定,关于其中一个变量的导数 极限和收敛 a是数列的极限,或称数列收敛于a;如果不存在极限,则数列是发散的 $$\lim_{n\rightarro 阅读全文
摘要:
RDD弹性分布式数据集 (Resilient Distributed Dataset) RDD只读可分区,数据集可以缓存在内存中,在多次计算间重复利用。 弹性是指内存不够时可以与磁盘进行交互 join操作就是笛卡尔积的操作过程 spark streaming 实时数据流 Discretized St 阅读全文
摘要:
集群zookeeper myid 环境配置 集群启动,在每台机子上都执行 查看集群状态 hbase环境配置 查看版本 hbase env.sh hbase site.xml regionservers master启动hbase 集群启动状态,主节点是HMaster,其余是HRegionServer 阅读全文