法杰拉 - 博客园

二叉树的中序遍历（非递归）

摘要：中序遍历是先遍历左子树，在自身，再遍历右子树，非递归实现的方法，一直遍历左节点，然后出栈，在遍历右节点阅读全文

posted @ 2018-08-09 23:34 法杰拉阅读(1576) 评论(0) 推荐(0) 编辑

二叉树的后序遍历（非递归方法）

摘要：二叉树的后序遍历的话，利用stack进行非递归遍历，要先访问每个节点的左子树，在访问右子树，然后访问自身， stack 一直循环，当栈顶节点（cur）的左右子树都是None的时候，或者当pre节点不是None的时候，同时pre和cur节点的左右子节点中的一个相等的时候可以出栈并访问阅读全文

posted @ 2018-08-09 23:30 法杰拉阅读(205) 评论(0) 推荐(0) 编辑

python enumerate函数同时遍历索引和函数

摘要： python 如何同时遍历索引和元素我们可以利用内置的enumerate函数，代码demo如下：阅读全文

posted @ 2018-06-29 15:37 法杰拉阅读(285) 评论(0) 推荐(0) 编辑

gensim ——训练word2vec词向量的使用方法。

摘要： load 的时候只需要 model = word2vec.Word2Vec.load("./sogou_word2vec/min_count-1/sogou_word.model") 或者 model=gensim.models.KeyedVectors.load_word2vec_format(" 阅读全文

posted @ 2018-06-27 17:40 法杰拉阅读(7589) 评论(0) 推荐(1) 编辑

moses工具的配置详解

摘要：首先是moses工具的官网网站 http://www.statmt.org/moses/ 在编译安装moses工具包之前需要做一些准备工作 1：安装boost库 yum install boost yum install boost-devel yum install boost-doc 三条命令下阅读全文

posted @ 2018-02-20 11:56 法杰拉阅读(1981) 评论(0) 推荐(0) 编辑

linux下boost库的安装

摘要：三条命令： yum install boost yum install boost-devel yum install boost-doc 测试代码：阅读全文

posted @ 2018-02-20 01:05 法杰拉阅读(426) 评论(0) 推荐(0) 编辑

python 调用word2vec

摘要：示例代码如下# -*- coding: utf-8 -*- import os import sys reload(sys) sys.setdefaultencoding('utf-8') from gensim.models import word2vec def main(): #原始搜狗语料路径 input_file=ur"/users1/ymli/wlj/data... 阅读全文

posted @ 2018-01-11 17:14 法杰拉阅读(2653) 评论(0) 推荐(0) 编辑

python 默认编码

摘要： python在安装时，默认的编码是ascii，当程序中出现非ascii编码时，python的处理常常会报这样的错UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(1 阅读全文

posted @ 2018-01-11 16:42 法杰拉阅读(272) 评论(0) 推荐(0) 编辑

GIZA++工具的使用介绍

摘要：首先此处默认已经分词的中英文文件分别命名为chinese和english GIZA++是用来做词对齐的工具，早期版本是GIZA，其实GIZA++这个工具已经很老了，好多年都没有更新了实验准备 2.1 GIZA++ GIZA++ 是由 Franz Och 开发的 GIZA 的一个扩展，并包含了许多其阅读全文

posted @ 2017-12-22 15:58 法杰拉阅读(5161) 评论(0) 推荐(0) 编辑

关于特殊字符的处理问题

摘要：如上图所示，在处理语料的过程中，会发现语料偏乱的情况，这么乱的语料对于之后的分词等等各种处理都会严重影响效果。对于Unicode编码而言这些“黑底白字”的非正常字符一般都是编码在0-31这个范围的，注意：32就是空格了。所以通过ord（）函数判断字符编码，如果在0-31之间就忽略掉。阅读全文

posted @ 2017-12-19 22:00 法杰拉阅读(280) 评论(0) 推荐(0) 编辑