2018年8月9日

二叉树的中序遍历(非递归)

摘要: 中序遍历是先遍历左子树,在自身,再遍历右子树, 非递归实现的方法,一直遍历左节点,然后出栈,在遍历右节点 阅读全文

posted @ 2018-08-09 23:34 法杰拉 阅读(1576) 评论(0) 推荐(0) 编辑

二叉树的后序遍历(非递归方法)

摘要: 二叉树的后序遍历的话,利用stack进行非递归遍历,要先访问每个节点的左子树,在访问右子树,然后访问自身, stack 一直循环,当栈顶节点(cur)的左右子树都是None的时候, 或者当pre节点不是None的时候,同时pre和cur节点的左右子节点中的一个相等的时候 可以出栈并访问 阅读全文

posted @ 2018-08-09 23:30 法杰拉 阅读(205) 评论(0) 推荐(0) 编辑

2018年6月29日

python enumerate函数同时遍历索引和函数

摘要: python 如何同时遍历索引和元素 我们可以利用内置的enumerate函数,代码demo如下: 阅读全文

posted @ 2018-06-29 15:37 法杰拉 阅读(285) 评论(0) 推荐(0) 编辑

2018年6月27日

gensim ——训练word2vec词向量的使用方法。

摘要: load 的时候只需要 model = word2vec.Word2Vec.load("./sogou_word2vec/min_count-1/sogou_word.model") 或者 model=gensim.models.KeyedVectors.load_word2vec_format(" 阅读全文

posted @ 2018-06-27 17:40 法杰拉 阅读(7589) 评论(0) 推荐(1) 编辑

2018年2月20日

moses工具的配置详解

摘要: 首先是moses工具的官网网站 http://www.statmt.org/moses/ 在编译安装moses工具包之前需要做一些准备工作 1:安装boost库 yum install boost yum install boost-devel yum install boost-doc 三条命令下 阅读全文

posted @ 2018-02-20 11:56 法杰拉 阅读(1981) 评论(0) 推荐(0) 编辑

linux下boost库的安装

摘要: 三条命令: yum install boost yum install boost-devel yum install boost-doc 测试代码: 阅读全文

posted @ 2018-02-20 01:05 法杰拉 阅读(426) 评论(0) 推荐(0) 编辑

2018年1月11日

python 调用word2vec

摘要: 示例代码如下# -*- coding: utf-8 -*- import os import sys reload(sys) sys.setdefaultencoding('utf-8') from gensim.models import word2vec def main(): #原始搜狗语料路径 input_file=ur"/users1/ymli/wlj/data... 阅读全文

posted @ 2018-01-11 17:14 法杰拉 阅读(2653) 评论(0) 推荐(0) 编辑

python 默认编码

摘要: python在安装时,默认的编码是ascii,当程序中出现非ascii编码时,python的处理常常会报这样的错UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(1 阅读全文

posted @ 2018-01-11 16:42 法杰拉 阅读(272) 评论(0) 推荐(0) 编辑

2017年12月22日

GIZA++工具的使用介绍

摘要: 首先此处默认已经分词的中英文文件分别命名为chinese和english GIZA++是用来做词对齐的工具,早期版本是GIZA,其实GIZA++这个工具已经很老了,好多年都没有更新了 实验准备 2.1 GIZA++ GIZA++ 是由 Franz Och 开发的 GIZA 的一个扩展,并包含了许多其 阅读全文

posted @ 2017-12-22 15:58 法杰拉 阅读(5161) 评论(0) 推荐(0) 编辑

2017年12月19日

关于特殊字符的处理问题

摘要: 如上图所示,在处理语料的过程中,会发现语料偏乱的情况,这么乱的语料对于之后的分词等等各种处理都会严重影响效果。对于Unicode编码而言这些“黑底白字”的非正常字符一般都是编码在0-31这个范围的,注意:32就是空格了。所以通过ord()函数判断字符编码,如果在0-31之间就忽略掉。 阅读全文

posted @ 2017-12-19 22:00 法杰拉 阅读(280) 评论(0) 推荐(0) 编辑

导航