10 2019 档案
摘要:1.官方简介 grep是linux的常用命令,用于对文件和文本执行重复搜索任务的Unix工具,可以通过grep命令指定特定搜索条件来搜索文件及其内容以获取有用的信息。 我平时也是简单的查看一个用户数据,用于简单的数据校对,最近突然接到分析后台日志的需求,才发现grep用处还是不少的。 比如我们后台日
阅读全文
摘要:1.疑问与背景: 在Python脚本中,通常会有“if __name__==’__main__:”作为程序的入口,但没有这么一句代码,程序也能正常运行。 在Java,每次开启一个程序,都必须写一个主函数(ie:main函数)作为程序的入口。 在“if __name__==’__main__:”也像是
阅读全文
摘要:才发现原来是在连接mysql时没有参数错误导致的 [root@hadoop01 ~]# mysql -uroot -oproot Warning: Using a password on the command line interface can be insecure. Welcome to t
阅读全文
摘要:Python经常被称作“胶水语言”,因为它能够轻易地操作其他程序,轻易地包装使用其他语言编写的库,也当然可以用Python调用Shell命令。 用Python调用Shell命令有如下几种方式: 第一种:os.system os.system("The command you want"). 这个调用
阅读全文
摘要:1.简单查看路径 1.查看数据库的存放路径 进入mysql终端mysql>show variables like '%datadir%'; 2.查看文件安装路径 [root@hadoop01 etc]# whereis mysql mysql: /usr/bin/mysql /usr/lib64/m
阅读全文
摘要:一个Dataset是一个分布式的数据集,而且它是一个新的接口,这个新的接口是在Spark1.6版本里面才被添加进来的,所以要注意DataFrame是先出来的,然后在1.6版本才出现的Dataset,提供了哪些优点呢?比如强类型,支持lambda表达式,还有还提供了sparksql执行引擎的一些优化,
阅读全文
摘要:pandas提供了一个灵活高效的groupby功能,它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。根据一个或多个键(可以是函数、数组或DataFrame列名)拆分pandas对象。计算分组摘要统计,如计数、平均值、标准差,或用户自定义函数。对DataFrame的列应用各种各样的函数。应
阅读全文
摘要:iconv是知名的开源跨平台编码转换库,iconv.exe是iconv库在windows下的命令行工具, iconv.exe的一般用法: 其中 -f gbk 指明转换前的文件编码是gbk,-t utf-8 指明转换后的文件编码是utf-8,gbk.... 功能 对于给定文件把它的内容从一种编码转换成
阅读全文
摘要:在python中,glob模块是用来查找匹配的文件的 在查找的条件中,需要用到Unix shell中的匹配规则: * : 匹配所所有 ? : 匹配一个字符 *.* : 匹配如:[hello.txt,cat.xls,xxx234s.doc] ?.* : 匹配如:[1.txt,h.py] ?.gif :
阅读全文
摘要:1.CART简介 CART是一棵二叉树,每一次分裂会产生两个子节点。CART树分为分类树和回归树。 分类树主要针对目标标量为分类变量,比如预测一个动物是否是哺乳动物。 回归树针对目标变量为连续值的情况,比如预测一个动物的年龄。 如果是分类树,将选择能够最小化分裂后节点GINI值的分裂属性; 如果是回
阅读全文
摘要:方法一:没看懂,说因为python多版本 方法二: 发现还是不行
阅读全文
摘要:平时在处理df series格式的时候并没有注意 map和apply的差异 总感觉没啥却别。不过还是有区别的。下面总结一下: import pandas as pd df1= pd.DataFrame({ "sales1":[-1,2,3], "sales2":[3,-5,7], }) 1.appl
阅读全文
摘要:确实有段时间没怎么写python,手写还不上机是真的难受。 而且break 跳出循环最内一层的事情都要想一下才能写得出来。 题目如下: 寻找一个字符串最大连续出现次数,并放入字典中, join 打错哦了 str=>list,set 可以直接list() set()方法转换
阅读全文
摘要:对于持牌消金公司来说,发行ABS需满足至少3年经营期限的硬性规定,目前已开业的24家消金公司里,有15家符合此项规定。 2019年下半年以来,个人消费金融领域共发行了15个资产证券化产品,发行规模达476.38亿元。 1.现在密集发ABS,也是通过资本市场来寻找发放消金贷款的资金。现在的资本市场的一
阅读全文
摘要:1.为什么要做风险授信管理及定价 2.风险损失的组成要素 其实PD EAD LGD 分别对应三个板块PD=>审批 EAD=>授信 LGD=>催收、抵押 3.不同产品间的风险损失计算方式 发债可以类似于0息债券,但是在现金贷却不行。 4.资金占用、产品周期与年化损失的定价应用 5.拓展:基于风险损失的
阅读全文
摘要:当向HDFS上写文件时,可以通过设置dfs.blocksize配置项来设置文件的block size,这导致HDFS上不同文件的block size是不同的。有时候我们需要知道HDFS上某个文件的block size,比如想知道该该文件作为job的输入会创建几个map等。 Hadoop FS She
阅读全文
摘要:1.量化风控体系介绍及其机遇与挑战 2.量化风控政策的设定逻辑与关注点 3.不同应用场景下的量化风控政策设定 4.量化风险政策的业务应用流程
阅读全文
摘要:词向量: 回顾基于检索的问答系统 倒排表解决:坑爹的翻译。。。应该翻译成“反向索引” 常规的索引是文档到关键词的映射: 文档——>关键词但是这样检索关键词的时候很费力,要一个文档一个文档的遍历一遍。于是人们发明了倒排索引~倒排索引是关键词到文档的映射 关键词——>文档 语言模型介绍 解决上面的问题就
阅读全文
摘要:文本处理的流程 缺点: 1.贪心算法可能只是局部最优 2.时间复杂度高 3.效率(max_len) 4.语义分歧 还有对第一次出现单词的处理以及平滑处理。以后再讲。 维特比算法登场: 维特比算法定义: 维特比算法是一种动态规划算法,用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列,特别是
阅读全文
摘要:上节课讲了一些算法的复杂度,都比较简单,我就没有单独截图。1 n n^2 nlogn logn。。。等等 其实一些排序问题也比较简单。还是给大家列举一下. 归并排序: 主定理定理。。吐血 算法复杂度相关的知识:函数渐进阶,记号 O、Ω、θ和 o;Master 定理。 先插一句,在算法复杂度分析中,l
阅读全文
摘要:感谢基友jayjay指路,其实我的方向一直比较迷茫。 因为自己是会计学出身的,前三年也没接触编程,第一次接触还是在2016年,尝试用聚宽的量化接口,当时顺便学了python 的一点知识。 后来毕业一开始一些数据分析,写一写数据分析偏财务的分析报告。 后来在亦师亦友的老常的带路下,从搭建hadoop集
阅读全文
摘要:从线性回归到逻辑回归 最简单的回归是线性回归,在Andrew NG的讲义,有如图1.a所示,X为数据点——肿瘤的大小,Y为观测值——是否是恶性肿瘤。通过构建线性回归模型,如hθ(x)所示,构建线性回归模型后,即可以根据肿瘤大小,预测是否为恶性肿瘤hθ(x)≥.05为恶性,hθ(x)<0.5为良性。
阅读全文
摘要:1.在HADOOP扮演的角色 JournalNode是在MR2也就是Yarn中新加的,journalNode的作用是存放EditLog的, 在MR1中editlog是和fsimage存放在一起的然后SecondNamenode做定期合并,Yarn在这上面就不用SecondNamanode了. Act
阅读全文
摘要:一、Systemd简介 Systemd是由红帽公司的一名叫做Lennart Poettering的员工开发,systemd是Linux系统中最新的初始化系统(init),它主要的设计目的是克服Sys V 固有的缺点,提高系统的启动速度。 systemd和upstart是竞争对手,ubantu上使用的
阅读全文
摘要:报错: 经过查看集群的jps如下: 查看日志: 状况: 所有namenode都是standby,即ZK服务未生效 尝试一:手动强制转化某个namenode为active 操作:在某台namenode上,执行 hdfs haadmin -transitionToActive --forcemanual
阅读全文
摘要:单个学习器要么容易欠拟合要么容易过拟合,为了获得泛化性能优良的学习器,可以训练多个个体学习器,通过一定的结合策略,最终形成一个强学习器。这种集成多个个体学习器的方法称为集成学习(ensemble learning)。 集成学习通过组合多种模型来改善机器学习的结果,与单一的模型相比,这种方法允许产生更
阅读全文
摘要:几位朋友找我,做一个基于spark的推荐系统。我们于是买了三台阿里云服务器折腾一下。 1.配置putty和安装nano 2.配置主机映射 /etc/hosts 3.
阅读全文
摘要:1.从cp/scp命令出发 scp(secure copy)是linux系统下基于ssh登录进行安全的远程文件拷贝的命令。 备注: 直接使用scp来跨机器拷贝文件,会提示输入密码,scp原理是先使用ssh连接服务端机器后,再使用网络来执行远程拷贝(cp) 2.SSH原理 Secure Shell(安
阅读全文