Python - 随笔分类 - JieLongZ

基于规则的中文分词 - NLP中文篇

摘要：之前在其他博客文章有提到如何对英文进行分词，也说后续会增加解释我们中文是如何分词的，我们都知道英文或者其他国家或者地区一些语言文字是词与词之间有空格（分隔符），这样子分词处理起来其实是要相对容易很多，但是像中文处理起来就没有那么容易，因为中文字与字之间，词与词之间都是紧密连接在一起的，所以第一件事需阅读全文

posted @ 2019-02-12 23:39 JieLongZ 阅读(3353) 评论(0) 推荐(0)

N-grams模型、停顿词（stopwords）和标准化处理 - NLP学习（2）

摘要：在上一节《Tokenization - NLP（1）》的学习中，我们主要学习了如何将一串字符串分割成单独的字符，并且形成一个词汇集（vocabulary），之后我们将形成的词汇集合转换成计算机可以处理的数字信息，以方便我们做进一步文本分析。这篇博客的主题还是我们如何将文本转成成更有用的成分，让我们能阅读全文

posted @ 2019-01-02 14:15 JieLongZ 阅读(9542) 评论(1) 推荐(1)

分词（Tokenization） - NLP学习（1）

摘要：自从开始使用Python做深度学习的相关项目时，大部分时候或者说基本都是在研究图像处理与分析方面，但是找工作反而碰到了很多关于自然语言处理（natural language processing： NLP）的问题，所以决定花点时间学习并且写下来，希望那些跟我一样同时在学习NLP的朋友能有一些帮助，学阅读全文

posted @ 2018-12-26 13:19 JieLongZ 阅读(10189) 评论(0) 推荐(2)

Python读取不同文件夹下的图片并且分类放到新创建的训练文件夹和标签文件夹

摘要：在深度学习的训练时，经常会碰到训练的样本数据集和标签数据集是在一个文件夹中，这个时候我们就不得不进行一些数据的预处理和文件的分类，例如将训练（training data）数据集和标签数据集（label data）分别放到不同的文件夹或者将训练数据集按照分类放到类别文件中，这样子的操作是为了我们能方便阅读全文

posted @ 2018-07-31 14:02 JieLongZ 阅读(7821) 评论(1) 推荐(1)

Python中关于split和splitext的差别和运用

摘要：在使用Python的过程中，在处理字符串的时候会遇到split()和os.path.split()两个函数，他们的主要区别可以概括为一个从前往后搜索字符串，后者则是从后往前搜索 '.'（reverse search）。 os.path.splitext()更多的运用在了搜索文件路径（path）和文件阅读全文

posted @ 2018-07-17 14:38 JieLongZ 阅读(15981) 评论(0) 推荐(1)

持续学习的JielongZ

不积跬步无以至千里

随笔分类 - Python

公告