开发经验 - 随笔分类(第36页) - 星朝

posted @ 2019-08-27 09:46 星朝阅读(890) 评论(0) 推荐(0) 编辑

摘要：撸了今年阿里、头条和美团的面试，我有一个重要发现.......>>> Java实现DFA算法进行敏感词过滤封装工具类如下：使用前需对敏感词库进行初始化： SensitiveWordUtil.init(sensitiveWordSet); package cn.swfilter. 阅读全文

posted @ 2019-08-26 17:55 星朝阅读(5921) 评论(2) 推荐(0) 编辑

jieba分词/jieba-analysis（java版）

摘要：简介支持分词模式Search模式，用于对用户查询词分词Index模式，用于对索引文档分词特性支持多种分词模式全角统一转成半角用户词典功能conf 目录有整理的搜狗细胞词库因为性能原因，最新的快照版本去除词性标注，也希望有更好的 Pull Request 可以提供该功能。简单使用获取jieba 阅读全文

posted @ 2019-08-26 17:28 星朝阅读(2893) 评论(0) 推荐(0) 编辑

IK分词器原理分析源码解析

摘要：IK分词器在是一款基于词典和规则的中文分词器。本文讲解的IK分词器是独立于elasticsearch、Lucene、solr，可以直接用在java代码中的部分。关于如何开发es分词插件，后续会有文章介绍。 IK分词器的源码：Google Code，直接下载请点击这里。 &nb 阅读全文

posted @ 2019-08-26 16:47 星朝阅读(4433) 评论(0) 推荐(2) 编辑

IK的整个分词处理过程

摘要：首先，介绍一下IK的整个分词处理过程： 1. Lucene的分词基类是Analyzer，所以IK提供了Analyzer的一个实现类IKAnalyzer。首先，我们要实例化一个IKAnalyzer，它有一个构造方法接收一个参数isMaxWordLength，这个参数是标识IK是否采用最大词长分词，还是阅读全文

posted @ 2019-08-26 16:45 星朝阅读(2871) 评论(0) 推荐(1) 编辑

IK分词器原理与源码分析

摘要：原文：http://3dobe.com/archives/44/ 引言做搜索技术的不可能不接触分词器。个人认为为什么搜索引擎无法被数据库所替代的原因主要有两点，一个是在数据量比较大的时候，搜索引擎的查询速度快，第二点在于，搜索引擎能做到比数据库更理解用户。第一点好理解，每当数据库的单个表大了，就是阅读全文

posted @ 2019-08-26 16:42 星朝阅读(1324) 评论(0) 推荐(0) 编辑

Neo4j中實現自定義中文全文索引

摘要：資料庫檢索效率時，一般首要優化途徑是從索引入手，然後根據需求再考慮更復雜的負載均衡、讀寫分離和分散式水平/垂直分庫/表等手段；索引通過資訊冗餘來提高檢索效率，其以空間換時間並會降低資料寫入的效率，因此對索引欄位的選擇非常重要。Neo4j可對指定Label的Node Create Index，當新增/ 阅读全文

posted @ 2019-08-26 15:09 星朝阅读(414) 评论(0) 推荐(0) 编辑

NEO4J中文分词全文索引自动更新解决方案

摘要：<! flowchart 箭头图标勿删 NEO4J中文分词全文索引自动更新解决方案一、样例数据二、英文与中文全文索引差别1、创建NEO4J默认索引2、删除索引3、创建支持中文分词的索引三、APOC自带英文全文索引过程（可自动更新索引）1、添加全文索引2、新增节点与属性3、检索四、自定义中文分词全文阅读全文

posted @ 2019-08-26 15:04 星朝阅读(649) 评论(0) 推荐(0) 编辑

【Neo4j】踩坑大会-Neo4J用中文索引

摘要：正在用的Neo4j是当前最新版：3.1.0，各种踩坑。说一下如何在Neo4j 3.1.0中使用中文索引。选用了IKAnalyzer做分词器。 1. 首先参考文章： https://segmentfault.com/a/1190000005665612 里面大致讲了用IKAnalyzer做索引的方式。阅读全文

posted @ 2019-08-26 15:01 星朝阅读(964) 评论(0) 推荐(0) 编辑

Neo4j和Elasticsearch

摘要：Neo4j和Elasticsearch Neo4j和Elasticsearch是一种让人眼前一亮的组合，为什么需要把搜索和图表结合起来呢？它们是如何使用的呢？在无处不在的互联网搜索引擎的推动下，全文搜索占据了主导地位。图形数据库在高度连接的领域上支持事务性和分析性。将两者结合在一起可以增强基于图的阅读全文

posted @ 2019-08-26 14:48 星朝阅读(2870) 评论(0) 推荐(0) 编辑

基于NEO4J的高级检索功能

摘要：<! flowchart 箭头图标勿删基于NEO4J的高级检索一、需求二、创建索引1、索引自动更新配置2、执行带有索引自动更新配置的过程三、查询索引1、LUCENE查询语法2、实现高级检索的核心：LUCENE QUERY语句拼接四、总结一、需求基于NEO4J实现类似万方的高级检索功能万方链阅读全文

posted @ 2019-08-26 14:44 星朝阅读(1855) 评论(0) 推荐(0) 编辑

Neo4j 3.5发布，在索引方面大幅增强

摘要：Neo4j 3.5版本已正式发布，这也是Neo4j宣布企业版闭源以来发布的第一个版本。这个版本在性能、资源使用率以及安全方面均有增强，我们可以先快速浏览一下这个版本：全文索引基于Index的快速排序 Go语言Driver 内置索引完善，性能有5X提升将Transaction State移到O 阅读全文

posted @ 2019-08-26 14:40 星朝阅读(669) 评论(0) 推荐(0) 编辑

Neo4j 全文检索

摘要：全文检索基本概念搜索搜索这个行为是用户与搜索引擎的一次交互过程,用户需要找一些数据,他提供给搜索引擎一些约束条件.搜索引擎通过约束条件抽取一些结果给用户搜索引擎搜索引擎存在的目的是存储,查找和获取数据.Neo4j用的搜索引擎是Lucene 文档在搜索软件中,文档是一等公民.存储,搜索,显示阅读全文

posted @ 2019-08-26 14:38 星朝阅读(897) 评论(0) 推荐(0) 编辑

主流图数据库Neo4J、ArangoDB、OrientDB综合对比：架构分析

摘要：1：本地存储方式 2：内置查询语言分析 3：性能分析 4：图算法支持本地存储方式 Neo4J neo4j数据库支持最大多少个节点？最大支持多少条边？目前累积统计它有34.4亿个节点，344亿的关系，和6870亿条属性。在数据库中，读/写性能跟节点/边的数量有关吗？这个问题意味着两个不阅读全文

posted @ 2019-08-26 14:01 星朝阅读(6005) 评论(0) 推荐(0) 编辑

neo4j常用cypher语句

摘要：阅读更多 1.删除带有关系的节点 a、先删除关系 match (n:Node) [r:关系名称] () where (n...条件) delete r b、删除节点 match (n:Node) where (n...条件) delete n 2.批量更新 & 阅读全文

posted @ 2019-08-26 11:16 星朝阅读(2256) 评论(0) 推荐(0) 编辑

Neo4j使用简单例子

摘要：Neo4j Versions Most of the examples on this page are written with Neo4j 2.0 in mind, so they skip the START clause, and use clauses like MERGE. The fo 阅读全文

posted @ 2019-08-26 11:14 星朝阅读(935) 评论(0) 推荐(0) 编辑

neo4j 初探

摘要：<! flowchart 箭头图标勿删 neo4j 初探参考转载:http://shomy.top/2018/06/08/neo4j start/ 近期需要处理图数据，考察后打算使用neo4j, 相比其他一些图数据库，neo4j开源，跨平台，接口友好，文档齐全，完整支持ACID。首先放一张网阅读全文

posted @ 2019-08-26 11:08 星朝阅读(221) 评论(0) 推荐(0) 编辑

neo4j 基本概念和Cypher语句总结

摘要：<! flowchart 箭头图标勿删下面是一个介绍基本概念的例子，参考链接Graph database concepts：（1） Nodes（节点）图谱的基本单位主要是节点和关系，他们都可以包含属性，一个节点就是一行数据，一个关系也是一行数据，里面的属性就是数据库里面的row里面的字段。阅读全文

posted @ 2019-08-26 11:07 星朝阅读(1072) 评论(0) 推荐(0) 编辑

NEO4J亿级数据全文索引构建优化

摘要：<! flowchart 箭头图标勿删 NEO4J亿级数据全文索引构建优化一、数据量规模（亿级）二、构建索引的方式三、构建索引发生的异常四、全文索引代码优化1、Java.lang.OutOfMemoryError2、访问数据库时3、优化方案4、优化代码5、执行效率测试如果使用基于NEO4J的全文阅读全文

posted @ 2019-08-26 10:46 星朝阅读(1507) 评论(0) 推荐(0) 编辑

自定义中文全文索引

摘要：<! flowchart 箭头图标勿删自定义中文全文索引一、中文分词插件1、分词组件的调整2、分词测试二、样例数据准备三、通过中文全文分词组件创建节点索引四、中文分词索引查询五、总结一、中文分词插件 NEO4J中文全文索引，分词组件使用IKAnalyzer。为了支持高版本LUCENE，IKAn 阅读全文

posted @ 2019-08-26 10:37 星朝阅读(729) 评论(0) 推荐(0) 编辑

星朝

随笔分类 - 开发经验

公告