摘要:
句法是指句子的各个组成部分的相互关系,句法分析分为句法结构分析(syntactic structure parsing)和依存关系分析(dependency parsing)。句法结构分析用于获取整个句子的句法结构,依存分析用于获取词汇之间的依存关系,目前的句法分析已经从句法结构分析转向依存句法分析 阅读全文
摘要:
Python标准库datetime包含用于日期(date)和时间(time)的数据类型,解释一下Python标准库中经常会遇到的属于:时间戳(timestamp)表示某一时刻的datetime,时期(period)表示一段时间,例如一月,一年等,间隔(interval)由起始时间戳和结束时间戳表示。 阅读全文
摘要:
常用的数据存储介质是数据库和csv文件,pandas模块包含了相应的API对数据进行输入和输出: 对于格式化的平面文件:read_table() 对于csv文件:read_csv()、to_csv() 对于SQL查询:read_sql、to_sql() 一,平面文件 把按照界定符分割的格式化文件读取 阅读全文
摘要:
在Python语言中,从SQL Server数据库读写数据,通常情况下,都是使用sqlalchemy 包和 pymssql 包的组合,这是因为大多数数据处理程序都需要用到DataFrame对象,它内置了从数据库中读和写数据的函数:read_sql()和to_sql(),这两个函数支持的连接类型是由s 阅读全文
摘要:
neo4j官方驱动支持Python语言,驱动程序主要包含Driver类型和Session类型。Driver对象包含Neo4j数据库的详细信息,包括主机url、安全验证等配置,还管理着连接池(Connection Pool);Session对象是执行事务单元的逻辑上下文,事务是在Session的上下文 阅读全文
摘要:
Cypher函数是对图进行查询和操作的重要工具。 一,谓词函数 谓词函数返回true或者false,主要用于检查是否存在或满足特定的条件。 1,Exists 如果指定的模式存在于图中,或者特定的属性存在于节点、关系或Map中,那么函数返回True 例如,节点具有name属性,并check图中是否存在 阅读全文
摘要:
更新图包括图的节点和关系的创建、更新和删除,也能更新图的节点和关系的属性、节点标签和关系类型。 一,创建节点 1,创建空的节点 2,创建带标签的节点 3,创建带标签和属性的节点 二,创建关系 创建节点之前的关系 1,在两个节点之间创建关系 在两个节点之间创建关系,并设置关系类型 2,创建关系,并设置 阅读全文
摘要:
分组是用圆括号“()”括起来的正则表达式,匹配出的内容就表示一个分组。分组有一个例外的情况,分组也可以不使用圆括号,而是使用 | 元字符来表示分组,| 的两侧是两个分组,例如, exp1 | exp2 表示两个分组,在严格意义闪给,不认为由 | 构成的正则表达式是分组。 分组和捕获在正则表达式中有着 阅读全文
摘要:
Cypher使用match子句查询数据,是Cypher最基本的查询子句。在查询数据时,使用Match子句指定搜索的模式,这是从Neo4j数据库查询数据的最主要的方法。match子句之后通常会跟着where子句,向模式中添加过滤性的谓词,用于对数据进行过滤。在查询数据时,查询语句分为多个部分,with 阅读全文
摘要:
投射子句用于定义如何返回数据集,并可以对返回的表达式设置别名,而过滤子句用于对查询的结果集按照条件进行过滤 一,Return子句 使用return子句返回节点,关系和关系。 1,返回节点 2,返回关系 3,返回属性 4,返回所有元素 5,为属性设置别名 6,返回谓词(predicate),文本(li 阅读全文
摘要:
模式和模式匹配是Cypher的核心,使用模式来描述所需数据的形状,该模式使用属性图的结构来描述,通常使用小括号()表示节点,-->表示关系,-[]->表示关系和关系的类型,箭头表示关系的方向。 一,节点模式 用小括号表示节点模式:(a),a是节点变量的名称,用于引用图中的某一个节点a。 对于匿名的节 阅读全文
摘要:
Cypher是图形数据库查询语言事实上的标准。 一,Cypher类型系统 Cypher支持的类型系统分为三类:属性类型,复合类型和结构类型。 1,属性类型 属性类型:Integer、Float、String和Boolean Boolean类型:true, false, TRUE, FALSE Str 阅读全文
摘要:
元组和集合是Python中的基本类型 一,元组 元组(tuple)由小括号、逗号和数据对象构成的集合,各个项通过逗号隔开,元组的特点是: 元组项可以是任何数据类型,也可以嵌套 元组是一个位置有序的对象的集合,通过偏移来访问元组项, 只不过元组是不可变的,不能在原处修改; 元组的各个项可以重复,例如, 阅读全文
摘要:
整理Python中常用的函数 一,把字符串形式的list转换为list 使用ast模块中的literal_eval函数来实现,把字符串形式的list转换为Python的基础类型list 二,filter filter() 函数用于过滤序列,过滤掉不符合条件的元素,返回由符合条件元素组成的新列表。 该 阅读全文
摘要:
spaCy处理文本的过程是模块化的,当调用nlp处理文本时,spaCy首先将文本标记化以生成Doc对象,然后,依次在几个不同的组件中处理Doc,这也称为处理管道。语言模型默认的处理管道依次是:tagger、parser、ner等,每个管道组件返回已处理的Doc,然后将其传递给下一个组件。 一,加载语 阅读全文
摘要:
spaCy 是一个号称工业级的自然语言处理工具包,最核心的数据结构是Doc和Vocab。Doc对象包含Token的序列和Token的注释(Annotation),Vocab对象是spaCy使用的词汇表(vocabulary),用于存储语言中共享的数据,spaCy通过集中存储字符串,单词向量和词汇属性 阅读全文
摘要:
正则表达式在匹配文本时,一般都是按照从左到右的顺序进行的,并且会消耗匹配的字符,环视(look around)能够实现在特定位置向左或向右查看(匹配)。环视结构不占用(消耗)任何字符,只匹配文本中的特定位置,这一点与单词分界符”\b”,锚点”^”和”$”相似,但是环视更加通用。 环视常见的用途是匹配 阅读全文
摘要:
networkx是Python的一个包,用于构建和操作复杂的图结构,提供分析图的算法。图是由顶点、边和可选的属性构成的数据结构,顶点表示数据,边是由两个顶点唯一确定的,表示两个顶点之间的关系。顶点和边也可以拥有更多的属性,以存储更多的信息。 对于networkx创建的无向图,允许一条边的两个顶点是相 阅读全文
摘要:
在导入自定义的模块时,除了指定模块名之外,也需要指定目录,由于Python把目录称作包,因此,这类导入被称为包导入。包导入把计算机上的目录变成Python的命名空间,而目录中所包含的子目录和模块文件则对应命名空间中的属性。 Python已经导入的模块保存在一个内置的sys.modules字典中,以便 阅读全文
摘要:
Python的元组不能为元组内部的数据进行命名,而 collections.namedtuple 可以来构造一个含有字段名称的元组类,命名元组可以通过逗号+字段名来获取元素值: collections.namedtuple(typename, field_names) 返回一个命名元组类 typen 阅读全文