11 2021 档案

摘要:Spark与Pandas中DataFrame对比(详细) Pandas Spark 工作方式 单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈 分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各 阅读全文
posted @ 2021-11-29 09:46 cup_leo 阅读(244) 评论(0) 推荐(0) 编辑
摘要:Python中操作SQLAlchemy,SQLAlchemy中文技术文档 - 简书 (jianshu.com) 阅读全文
posted @ 2021-11-26 13:55 cup_leo 阅读(107) 评论(0) 推荐(0) 编辑
摘要:#Rouge gram-1,2,4,SU4 def Rouge_1(pred, true): #结巴精准分词 gram_1_true = list(jieba.cut(true)) gram_1_pred = list(jieba.cut(pred)) #统计参考摘要长度、预测摘要长度、预测正确的摘 阅读全文
posted @ 2021-11-26 12:46 cup_leo 阅读(796) 评论(0) 推荐(0) 编辑
摘要:def mode(arr): dict_cnt = {} for x in arr: dict_cnt[x] = dict_cnt.get(x,0)+1 max_cnt = max(dict_cnt.values()) most_values = [k for k,v in dict_cnt.ite 阅读全文
posted @ 2021-11-25 11:37 cup_leo 阅读(518) 评论(0) 推荐(0) 编辑
摘要:现在工业界有哪些比较实用的计算短文本相似度的算法或者模型? https://www.zhihu.com/question/342548427/answer/1790309097 https://blog.csdn.net/ling620/article/details/95956211 阅读全文
posted @ 2021-11-23 11:04 cup_leo 阅读(237) 评论(0) 推荐(0) 编辑
摘要:yanagishima/yanagishima: Web UI for Trino, Hive and SparkSQL (github.com) Yanagishima is an open-source Web application for Trino, Hive and Spark. 阅读全文
posted @ 2021-11-19 15:01 cup_leo 阅读(86) 评论(0) 推荐(0) 编辑
摘要:spark参数调优 阅读全文
posted @ 2021-11-18 14:17 cup_leo 阅读(9) 评论(0) 推荐(0) 编辑
摘要:基于医疗知识图谱的自动问答 从无到有搭建一个以疾病为中心的一定规模医药领域知识图谱,并以该知识图谱完成自动问答与分析服务。 self-implement of disease centered Medical graph from zero to full and sever as question 阅读全文
posted @ 2021-11-12 17:31 cup_leo 阅读(23) 评论(0) 推荐(0) 编辑
摘要:1、依存关系法: 基于依存句法分析的事实三元组抽取 如何抽取实体关系?——基于依存句法分析的事实三元组抽取 - 编程、生活、技巧、认知、理财 (guanngxu.com) 论文:基于依存分析的开放式中文实体关系抽取方法 - 豆丁网 (docin.com) 论文 code:fact_triple_ex 阅读全文
posted @ 2021-11-12 13:46 cup_leo 阅读(200) 评论(0) 推荐(0) 编辑
摘要:中文知识图谱-领域词抽取 - 知乎 (zhihu.com) 中文知识图谱-基于规则的关系抽取 中文知识图谱-基于规则的关系抽取 - 知乎 (zhihu.com) 阅读全文
posted @ 2021-11-12 13:34 cup_leo 阅读(162) 评论(0) 推荐(0) 编辑
摘要:数据挖掘算法比赛 - 简单经验总结 阅读全文
posted @ 2021-11-11 11:25 cup_leo 阅读(17) 评论(0) 推荐(0) 编辑
摘要:刷爆3路榜单,信息抽取冠军方案分享:嵌套NER+关系抽取+实体标准化 - 知乎 (zhihu.com) 信息抽取任务的稳定提升策略有哪些?总的来看就是两点: 构建一个强大的baseline,这取决于标注框架的选择; 套路化的辅助策略,稳定迭代并提升; 为更好地展示关键内容,本文以QA形式探讨了以下问 阅读全文
posted @ 2021-11-09 16:04 cup_leo 阅读(135) 评论(0) 推荐(0) 编辑
摘要:工业界如何解决NER问题?12个trick,与你分享~ - 知乎 (zhihu.com) 中文NER的正确打开方式: 词汇增强方法总结 (从Lattice LSTM到FLAT) - 知乎 (zhihu.com) 阅读全文
posted @ 2021-11-09 16:02 cup_leo 阅读(89) 评论(0) 推荐(0) 编辑
摘要:技术总结:NLP中的模式匹配落地场景及高效开源工具总结与分析 (qq.com) 阅读全文
posted @ 2021-11-08 16:13 cup_leo 阅读(109) 评论(0) 推荐(0) 编辑
摘要:Pooling 选择的策略 这里交叉介绍 pooling 选择的策略: •池化的应用:降维和保留显著的特征 •Max pooling 是取整个 feature map 区域的最大值作为特征,即一个 max feature操作,在自然语言处理中常用于文本分类(text classification), 阅读全文
posted @ 2021-11-05 11:29 cup_leo 阅读(120) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示