摘要: 算法与数据结构刷题系列之贪心算法,仅记录个人刷题总结记录,方便复习。 阅读全文
posted @ 2021-12-16 11:09 Caoer199 阅读(44) 评论(0) 推荐(0) 编辑
摘要: CRF学习完了,但是理论不结合实践总是无法出真知的。使用CRF进行命名实体识别有很多方法,比如CRF++工具包、sklearn包中的crfsuite套装、keras框架、tensorflow框架、pytorch框架等等,下面总结借助CRF++工具包实现的几点心得。 一、CRF++工具包的安装与配置 阅读全文
posted @ 2021-06-06 17:53 Caoer199 阅读(903) 评论(0) 推荐(0) 编辑
摘要: 新词发现小范围调研总结汇总,方便后续自己回看。 阅读全文
posted @ 2021-05-24 11:46 Caoer199 阅读(1164) 评论(0) 推荐(1) 编辑
摘要: Trie树定义及python实现 阅读全文
posted @ 2021-04-06 14:45 Caoer199 阅读(3132) 评论(1) 推荐(2) 编辑
摘要: 记录python coding过程的一些bug和tips~ 阅读全文
posted @ 2020-12-17 10:50 Caoer199 阅读(79) 评论(0) 推荐(0) 编辑
摘要: Mongodb是一个基于分布式文件存储的数据库,介于关系数据库和非关系数据库之间的产品,由C++语言编写,旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB将数据库存储为一个文档,数据结构由键值(key=>value)对组成,MongoDB文档类似于JSON对象,字段值可以包含其他 阅读全文
posted @ 2020-09-04 10:25 Caoer199 阅读(126) 评论(0) 推荐(0) 编辑
摘要: O、知识框架 一、初步概念 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 1.requests+selenium能解决90%的爬虫需求&scrapy加速 2.scrapy使用了Twisted异步网络框架,加快下 阅读全文
posted @ 2020-08-03 08:56 Caoer199 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 一、Hadoop命令行操作 (1)查看帮助 $hdfs dfs -help (2)查看当前目录信息 $hdfs dfs -ls / (3)上传文件 $hdfs dfs -put /本地路径 /hdfs路径 (4)剪切文件 $hdfs dfs -moveFromLocal a.txt /aa.txt 阅读全文
posted @ 2020-07-29 15:56 Caoer199 阅读(759) 评论(0) 推荐(0) 编辑
摘要: 遗传算法总结 阅读全文
posted @ 2020-07-08 09:55 Caoer199 阅读(8482) 评论(0) 推荐(1) 编辑
摘要: Hadoop是一个能够对海量数据进行分布式处理的系统架构,主要包含3大块:分布式存储系统HDFS(Hadoop Distributed File System)分布式存储层、分布式计算框架MapReduce分布式计算层、资源管理系统YARN(Yet Another Resource Negotiator)集群资源管理层。Hadoop的核心是:HDFS和MapReduce。伪分布式模式的Hadoop即在一台主机上模拟一个小的集群。 阅读全文
posted @ 2020-06-27 10:44 Caoer199 阅读(218) 评论(0) 推荐(0) 编辑