随笔分类 - Java
学习java
摘要:AutoText 智能文本自动处理工具(Intelligent text automatic processing tool)。 项目地址:https://github.com/jiangnanboy/AutoText AutoText的功能主要有文本纠错,图片ocr以及表格结构识别等。 Guide
阅读全文
摘要:利用JNI加载paddle-ocr进行ocr识别 项目地址:https://github.com/jiangnanboy/java-springboot-paddleocr-v2 Table of Contents About Getting Started Result Contact Refer
阅读全文
摘要:利用java-springboot和paddleocr进行ocr识别 项目:https://github.com/jiangnanboy/java-springboot-paddleocr Table of Contents About Getting Started Result Contact
阅读全文
摘要:项目地址见:https://github.com/jiangnanboy/spark_data_mining/tree/master/src/main/java/com/sy/dataalgorithms/advanced/time_series 一.概要 此项目将围绕一个时间序列预测任务展开。该任
阅读全文
摘要:intelligent medical 尝试构建一个以疾病为中心的智慧医疗项目,整合搜索、推荐、图谱、问答以及语音等功能,形成一个较为完整的解决方案。 完整项目见:https://github.com/jiangnanboy/intelligent_medical 项目介绍 本项目中的医疗数据来自Q
阅读全文
摘要:使用纠错模板对中文句子进行语法纠正 项目地址:https://github.com/jiangnanboy/gec_check_template introduction 模板见resources/zh_template/error_templates_500.txt A,B;1/2/3 requi
阅读全文
摘要:EventExtraction & TriplesExtraction 项目地址:https://github.com/jiangnanboy/triple_event_extract 一.中文复合事件抽取,包括条件事件、因果事件、顺承事件、反转事件等事件抽取 examples/ExtractEve
阅读全文
摘要:利用java开发一个标量自动求导引擎,动态构建DAG图,并实现反向传播 。项目中把每个神经元切成一个个小的加法和乘法,然后以此构建一个完整的深度神经网络来进行二分类。 项目地址:https://github.com/jiangnanboy/micrograd4j 示例 以下是在标量数据上的一些示例:
阅读全文
摘要:这里利用java加载macbert模型,并进行中文拼写纠错。 项目地址:https://github.com/jiangnanboy/macbert-java-onnx 步骤 1.利用java加载macbert模型,并进行纠错推理。 2.模型从这里 下载。 3.模型转换见这里 。 使用 1.sy/M
阅读全文
摘要:这里利用java加载onnx模型,并进行推理。 项目地址:https://github.com/jiangnanboy/onnx-java 步骤 1.利用java加载onnx模型,并进行推理预测。这里采用roberta模型的onnx版。 2.pytorch模型从这里 下载。 3.pytorch模型转
阅读全文
摘要:jcorrector 项目地址:https://github.com/jiangnanboy/jcorrector 中文文本纠错工具。音似、形似错字(或变体字)纠正,可用于中文拼音、笔画输入法的错误纠正。项目为java开发,此项目参考了pycorrector,在此对作者表示感谢。 jcorrecto
阅读全文
摘要:一.一篇文档的信息量是否丰富,可以简单利用信息熵来衡量它,计算公式如下,其中p(x)表示word在整篇文档的出现概率(此word出现次数 / 总词数)。 二.简单实现 public class DocEntropy { public static void main(String[] args) {
阅读全文
摘要:记得好几年前用es做过标签画像统计,如今再看es时已是很生疏了,再用时已更新到了7.12版本了。以前用TransportClient客户端,现在出了而且是官方推荐用RestHighLevelClient客户端。 这几天用RestHighLevelClient时还是觉得比较方便的。现将一些基本常用功能
阅读全文
摘要:一.来源 此项目来源《Data Algorithms Recipes for Scaling Up with Hadoop and Spark》第11章,本程序利用spark3.0以及java8进行改写, 改写的有: 1.利用spark3.0与java8 2.直接利用spark生成最终的状态转移矩阵
阅读全文
摘要:一.目的 基于基站定位数据的商圈分析移动通信网络会记录用户手机的相关信息,比如手机所处的基站区域编号,所处基站的时间等。根据这些数据可以进行商圈划分,目的是为了研究潜在的顾客的分布以制定适宜的商业对策。如:可划分商业区、住宅区以及工作区 二.数据 数据来源【Python数据分析与挖掘实战(第14章基
阅读全文
摘要:一.数据 这是一个Udacity纳米学位项目(数据科学的顶点)。这个项目使用来自Sparkify的用户事件数据来建立一个模型来预测用户的流失。Sparkify是一个类似于Spotify或Pandora的数字化音乐服务(类似于网易云音乐和QQ音乐的音乐平台)。使用Spark分析探索某数字音乐服务平台S
阅读全文
摘要:一.什么是AHP RFM是对顾客价值分群,但是每个群内的顾客并没有区分价值度。所以AHP就是针对每个群内的顾客进行打分去区分不同价值顾客。 什么是AHP > https://baike.baidu.com/item/%E5%B1%82%E6%AC%A1%E5%88%86%E6%9E%90%E6%B3
阅读全文
摘要:一.RFM RFM是一种用来衡量当前客户价值和潜在客户价值的重要工具和手段。 在面向客户制定运营策略、营销策略时,我们希望能够针对不同的客户推行不同的策略,实现精准化运营,以期获取最大的转化率。精准化运营的前提是客户关系管理,而客户关系管理的核心是客户分类。 通过客户分类,对客户群体进行细分,区别出
阅读全文
摘要:一.统计指标针对淘宝app一个月的数据进行流量运营分析,主要包括: 1.app流量分析 (1).pv页面浏览量 (2).uv独立访客 (3).访问深度 (4).每天访客数和成交量 (5).不同时段的访客数及成交量 (6).流失率 2.用户行为分析 (1).用户浏览活跃时段 (2).用户购买活跃时段
阅读全文
摘要:一.简介电影知识图谱问答,利用spark,neo4j以及hanlp完成一个简易的电影问答。二.要求 利用java-driver方式,使用cypher和apoc构建节点和关系,使用spark ml完成问句分类。 1.neo4j3.5.3 2.apoc3.5.0.13 3.jdk1.8 4.hanlp1
阅读全文