Fork me on GitHub

2019年6月17日

摘要: 问题描述 titanic讲的是在titanic灾难发生时,船上不同人的生还率。给出的训练集是一个csv文件,包含船上乘客的年龄,性别,船票位置,家庭成员关系等,然后最终的结果是二元分析,遇难或者生还,0或1。 分析训练集 开始先有个对数据集大致的印象,然后类似于数据库中的group by,分析一些重 阅读全文
posted @ 2019-06-17 17:14 OneLi算法分享社区 阅读(472) 评论(0) 推荐(0) 编辑

2019年6月16日

摘要: 问题描述 speech recognize是kaggle上1,2年前的一个赛题,主要描述的是如果在各种环境中识别出简单的英文单词发音,比如bed,cat,right之类的语音。提供的训练集是.wav格式的语音,解压后数据集大小在2G左右。 训练集分析 语音识别相对图片识别来说,是一个区别较大的领域。 阅读全文
posted @ 2019-06-16 16:14 OneLi算法分享社区 阅读(1939) 评论(0) 推荐(0) 编辑

2019年5月26日

摘要: 查看集群状态 或者也可以直接在gp集群里用sql查询 查看集群节点和实例的状态,发现有一台机子挂掉掉了,需要恢复节点和实例的状态。保守起见,在晚上没人用的时候停库恢复。 集群启动 生成恢复文件 恢复 全部Synchronized后,改回节点状态 在集群恢复同步的过程中,可以通过 gpstate m查 阅读全文
posted @ 2019-05-26 15:38 OneLi算法分享社区 阅读(1652) 评论(0) 推荐(0) 编辑

2019年5月19日

摘要: MNIST(Modified National Institute of Standards and Technology) MNIST被称作是计算机视觉的新手村,相当于神经网络CNN版的helloword,也是TensorFlow的初体验。提供的数据集是28 28的灰度矩阵,要分析并识别出对应原来 阅读全文
posted @ 2019-05-19 14:48 OneLi算法分享社区 阅读(365) 评论(0) 推荐(0) 编辑

2019年5月18日

摘要: ####Kaggle房价预测 作为Kaggle竞赛中的经典入门题目,我主要在kernels中学习其他人分析和处理数据的流程,首先是通过各类plt的图表,分析数据特征和房价之间的相关性 ####载入数据集 df_train = pd.read_csv('./input/train.csv') df_t 阅读全文
posted @ 2019-05-18 20:45 OneLi算法分享社区 阅读(1973) 评论(0) 推荐(0) 编辑

2019年5月12日

摘要: + "线性回归" + "决策树" + "人工神经网络" + "聚类分析" + "关联规则" 线性回归(Linear Regression) 连续变量 损失函数(似然函数) 预测函数和实际值误差的平方尽可能小 $$J(\theta)=\frac{1}{m}\sum_{i=1}^m\frac{1}{2} 阅读全文
posted @ 2019-05-12 19:32 OneLi算法分享社区 阅读(143) 评论(0) 推荐(0) 编辑

2019年5月11日

摘要: 发现问题 在爬虫下载过程中,执行一段时间后都会异常终止,下次必须kill掉进程重新运行 ,看能否优化并减少手动操作 错误日志分析 收集了nohup.out文件,发现主要错误是的数组下标越界,推测可能的问题为: 1)网络不稳定,http请求不通。 2)网络请求成功,但是html表单解析失败。 3)登录 阅读全文
posted @ 2019-05-11 22:42 OneLi算法分享社区 阅读(304) 评论(0) 推荐(0) 编辑

2019年4月21日

摘要: + "高数" + "微分" + "积分" + "空间几何" + "概率论" + "概率论" + "数理统计" + "线代" 偏导数 多元函数,其他变量保持恒定,关于其中一个变量的导数 极限和收敛 a是数列的极限,或称数列收敛于a;如果不存在极限,则数列是发散的 $$\lim_{n\rightarro 阅读全文
posted @ 2019-04-21 19:16 OneLi算法分享社区 阅读(280) 评论(0) 推荐(0) 编辑

2019年4月20日

摘要: RDD弹性分布式数据集 (Resilient Distributed Dataset) RDD只读可分区,数据集可以缓存在内存中,在多次计算间重复利用。 弹性是指内存不够时可以与磁盘进行交互 join操作就是笛卡尔积的操作过程 spark streaming 实时数据流 Discretized St 阅读全文
posted @ 2019-04-20 22:04 OneLi算法分享社区 阅读(236) 评论(0) 推荐(0) 编辑

2019年4月14日

摘要: 集群zookeeper myid 环境配置 集群启动,在每台机子上都执行 查看集群状态 hbase环境配置 查看版本 hbase env.sh hbase site.xml regionservers master启动hbase 集群启动状态,主节点是HMaster,其余是HRegionServer 阅读全文
posted @ 2019-04-14 20:27 OneLi算法分享社区 阅读(175) 评论(0) 推荐(0) 编辑

导航