博客:https://www.cnblogs.com/enhaofrank/,公众号:生信AI区块链科技前沿,github:https://github.com/enhaofrank

功不唐捐 玉汝于成

2021年12月21日

聚类算法之DBSCAN

摘要: DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种基于密度的空间聚类算法。 该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点 阅读全文

posted @ 2021-12-21 21:22 enhaofrank 阅读(1433) 评论(0) 推荐(0) 编辑

上市公司财务造假分析和财务困境预测分析

摘要: 参考资料: 1、回归五式第二式:0-1回归——上市公司ST状态预测和分析(内含报告和Python代码) - 知乎 (zhihu.com) 2、上市公司财务造假预测模型研究 3、财务困境预测模型 - MBA智库百科 (mbalib.com) 4、特别推荐:上市公司盈、亏预测模型分析_网易财经频道 (1 阅读全文

posted @ 2021-12-21 10:17 enhaofrank 阅读(226) 评论(0) 推荐(0) 编辑

2021年8月11日

一行代码从PDF提取Excel文件

摘要: 最近几天,paddleOCR开发了新的功能,通过将图片中的表格提取出来,效果还不错,今天,作者按照步骤测试了一波。 首先,讲下这个工具是干什么用的:它的功能主要是针对一张完整的PDF图片,可以对文档图片中的文本、表格、图片、标题与列表区域进行分类。同时还可以利用表格识别技术完整地提取表格结构信息,使 阅读全文

posted @ 2021-08-11 15:53 enhaofrank 阅读(1612) 评论(0) 推荐(0) 编辑

2021年1月15日

学习kafka的内容总结

摘要: kafka的基本介绍: Kafka 是linkedin 公司用于日志处理的分布式消息队列,同时支持离线和在线日志处理。kafka 对消息保存时根据Topic进行归类,发送消息者成为Producer,消息接受者成为Consumer,此外kafka 集群有多个kafka 实例组成,每个实例(server 阅读全文

posted @ 2021-01-15 11:30 enhaofrank 阅读(113) 评论(0) 推荐(0) 编辑

2020年11月14日

关键词提取的几种常用方法总结以及代码实现

摘要: 最近在处理新闻、资讯类内容的关键词提取任务,所以就了解了下这方面的情况。现在对这方面进行一个分享: 一、关键词提取 因为关键词能够表达一篇文章的中心内容,在我们写论文的时候,大家都有遇到过,那么在工作中,特别是对于新闻稿件、资讯舆情甚至是视频类,提取好准确的关键词,一方面可以让读者快速了解内容的中心 阅读全文

posted @ 2020-11-14 15:32 enhaofrank 阅读(6833) 评论(0) 推荐(0) 编辑

2020年8月28日

语义预训练模型ERNIE

摘要: 19年,百度提出了知识增强的语义表示模型ERNIE(Enhanced Representation from knowledge Integration), 并发布了基于百度自己开发的深度学习框架PaddlePaddle的开源代码和模型,在语言推断、语义相似度、命名实体识别、情感分析、问答匹配等自然 阅读全文

posted @ 2020-08-28 16:31 enhaofrank 阅读(877) 评论(0) 推荐(0) 编辑

利用NLP预训练模型进行舆情分类

摘要: 最近在研究金融舆情分类的工作,所以调研了一些这方面的内容。 如果对这一块不了解的朋友,首先可能需要先了解下google发布的bert,其实我也是现学的。 NLP的发展历程经过了下面几个阶段,到18年,由google发布的bert在NLP任务上取得不错的成绩,后续近几年就变成预训练模型的世界了。 NL 阅读全文

posted @ 2020-08-28 16:30 enhaofrank 阅读(1331) 评论(0) 推荐(0) 编辑

2020年6月3日

风控模型---贷后催收模型

摘要: 做过风控模型或者有过这方面基础的同学们应该都知道评分卡其实也分很多种,按照时间线来划分的有: 申请评分卡—> 欺诈评分卡—> 行为评分卡—> 市场评分卡—> 催收评分卡(又分为失联模型、还款率模型、是否还款模型、迁徙率模型) 本文主要介绍的是催收评分卡: 一、目标变量定义: 衡量还款能力客户为正负样 阅读全文

posted @ 2020-06-03 16:18 enhaofrank 阅读(3976) 评论(0) 推荐(0) 编辑

2020年5月16日

集成学习

摘要: 集成学习通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统。 集成学习的一般结构:先产生一组“个体学习器”,再用某种策略将它们结合起来。 根据个体学习器的生成方式,目前的集成学习方法大致可以分为两大类,即个体学习器间存在强依赖关系,必须串行生成的序列化方法,以及个体学习器间不存在强依赖 阅读全文

posted @ 2020-05-16 20:56 enhaofrank 阅读(220) 评论(0) 推荐(0) 编辑

分类模型之决策树

摘要: 决策树是基于树结构来进行决策的,一般的,决策树包含一个根结点,若干个内部结点和若干个叶结点,叶结点对应于决策结果,其他每个结点则对应于一个属性测试,每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集。从根结点到每个叶结点的路径对应了一个判定测试序列。决策树学习的目的是为了产 阅读全文

posted @ 2020-05-16 16:35 enhaofrank 阅读(423) 评论(0) 推荐(0) 编辑

导航