02 2021 档案

摘要:1.当前目录下,移动除某一特定目录外的其他目录 find . -maxdepth 1 ! -name 2021-02-19 -exec mv {} 2021-02-25 \; 2.随机查看某一文件某几行 shuf -n 100 xxx.txt 3.查看.gz文件 zcat xxx.gz 4.统计文件 阅读全文
posted @ 2021-02-25 09:23 lingwang3 阅读(56) 评论(0) 推荐(0) 编辑
摘要:1.近期下载一些数据,涉及到pdf文件,因一些原因,需要用到selenium,希望不是在浏览器中打开pdf,而是下载这个文件 chromedrive.exe版本要匹配你当前的chrome浏览器版本(https://npm.taobao.org/mirrors/chromedriver/) # -*- 阅读全文
posted @ 2021-02-24 10:56 lingwang3 阅读(2996) 评论(0) 推荐(0) 编辑
摘要:1.主要JapaneseTokenizer https://pypi.org/project/JapaneseTokenizer/ 安装: pip install JapaneseTokenizer Supported Tokenizers 1.1 Mecab 安装请参考:https://www.d 阅读全文
posted @ 2021-02-21 10:19 lingwang3 阅读(287) 评论(0) 推荐(0) 编辑
摘要:1.langid 2.langdetect 3.fasttext 本文主要讲fasttext 下载它的model,当然可以自己训练 import fasttext fasttext_model = fasttext.load_model('xx/bin/lid.bin') labels, score 阅读全文
posted @ 2021-02-04 16:35 lingwang3 阅读(1789) 评论(0) 推荐(0) 编辑
摘要:1.在合适的目录下载安装包 wget -c https://repo.anaconda.com/archive/Anaconda3-2020.02-Linux-x86_64.sh 2.安装 bash Anaconda3-2020.02-Linux-x86_64.sh 3.修改配置 vi ~/.bas 阅读全文
posted @ 2021-02-04 10:34 lingwang3 阅读(151) 评论(0) 推荐(0) 编辑
摘要:最近项目中处理分句 1.中文一般使用ltp 2.欧洲语系一般使用segtok 3.本文重点讲解Stanford CoreNLP 3.1 优点如下: 功能足够多,一站式解决所有主流需求; 操作足够方便,放到 Python 里基本上就是一两行代码; 语言支持广泛,目前支持阿拉伯语,中文,英文,法语,德语 阅读全文
posted @ 2021-02-03 13:46 lingwang3 阅读(197) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示