摘要:
算法与数据结构刷题系列之贪心算法,仅记录个人刷题总结记录,方便复习。 阅读全文
摘要:
CRF学习完了,但是理论不结合实践总是无法出真知的。使用CRF进行命名实体识别有很多方法,比如CRF++工具包、sklearn包中的crfsuite套装、keras框架、tensorflow框架、pytorch框架等等,下面总结借助CRF++工具包实现的几点心得。 一、CRF++工具包的安装与配置 阅读全文
摘要:
新词发现小范围调研总结汇总,方便后续自己回看。 阅读全文
摘要:
Trie树定义及python实现 阅读全文
摘要:
记录python coding过程的一些bug和tips~ 阅读全文
摘要:
Mongodb是一个基于分布式文件存储的数据库,介于关系数据库和非关系数据库之间的产品,由C++语言编写,旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB将数据库存储为一个文档,数据结构由键值(key=>value)对组成,MongoDB文档类似于JSON对象,字段值可以包含其他 阅读全文
摘要:
O、知识框架 一、初步概念 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 1.requests+selenium能解决90%的爬虫需求&scrapy加速 2.scrapy使用了Twisted异步网络框架,加快下 阅读全文
摘要:
一、Hadoop命令行操作 (1)查看帮助 $hdfs dfs -help (2)查看当前目录信息 $hdfs dfs -ls / (3)上传文件 $hdfs dfs -put /本地路径 /hdfs路径 (4)剪切文件 $hdfs dfs -moveFromLocal a.txt /aa.txt 阅读全文
摘要:
遗传算法总结 阅读全文
摘要:
Hadoop是一个能够对海量数据进行分布式处理的系统架构,主要包含3大块:分布式存储系统HDFS(Hadoop Distributed File System)分布式存储层、分布式计算框架MapReduce分布式计算层、资源管理系统YARN(Yet Another Resource Negotiator)集群资源管理层。Hadoop的核心是:HDFS和MapReduce。伪分布式模式的Hadoop即在一台主机上模拟一个小的集群。 阅读全文