随笔分类 -  nlp

基于统计的机器翻译
摘要:1. 中英文平行语料预处理中文处理数据泛化,解决数据稀疏问题数字 $number日期 $date时间 $time网址等 $literal专有名词处理:如“东北大学信息学院”建议拆分为“东北大学”、“信息学院”,有助于抽取出更多翻译规则 英文大小写句尾结束符与最后单词用空格分开数据泛化处理 其他全角 阅读全文

posted @ 2021-04-07 16:15 iUpoint 阅读(262) 评论(0) 推荐(0) 编辑

jieba、NLTK学习笔记
摘要:中文分词 - jiebaimport re import jieba news_CN = ''' 央视315晚会曝光湖北省知名的神丹牌、莲田牌“土鸡蛋”实为普通鸡蛋冒充,同时在商标上玩猫腻, 分别注册“鲜土”、注册“好土”商标,让消费者误以为是“土鸡蛋”。3月15日晚间,新京报记者就此 事致电湖北神 阅读全文

posted @ 2019-08-08 11:19 iUpoint 阅读(1633) 评论(0) 推荐(0) 编辑

python 绘制词云图
摘要:1. 先下载并安装nltk包,准备一张简单的图片存入代码所在文件目录,搜集英文停用词表 import nltk nltk.download() 2. 绘制词云图 import re import numpy as np import pandas as pd #import matplotlib i 阅读全文

posted @ 2019-08-07 16:54 iUpoint 阅读(3152) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示