摘要: 分词工具 网盘链接:https://pan.baidu.com/s/1fkKK4ZImxhfShrEHMZUX3w import jieba seg_list = jieba.cut("我来到北京清华大学", cut_all=True) print("全模式: " + "/ ".join(seg_l 阅读全文
posted @ 2021-07-06 20:45 风hua 阅读(85) 评论(0) 推荐(0) 编辑
摘要: spaCy 介绍 # 导入工具包和英文模型 #pip install spacy #python -m spacy download en_core_web_sm # 安装不成功 去直接下载 >pip install 包 地址:https://github.com/explosion/spacy-m 阅读全文
posted @ 2021-07-06 20:42 风hua 阅读(292) 评论(0) 推荐(0) 编辑
摘要: Python字符串处理 去掉空格或者特殊字符 input_str = ' 今天天气不错,今天挺风和日丽的 ' input_str.strip() '今天天气不错,今天挺风和日丽的' input_str.rstrip() ' 今天天气不错,今天挺风和日丽的' input_str.lstrip() '今 阅读全文
posted @ 2021-07-06 20:38 风hua 阅读(36) 评论(0) 推荐(0) 编辑
摘要: NLTK工具包安装 非常实用的文本处理工具,主要用于英文数据,历史悠久~ import nltk #pip install nltk nltk.download() showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pa 阅读全文
posted @ 2021-07-06 20:35 风hua 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 爬虫目录 1 request基础 1.1 request 详解版 爬虫-selenium 2 数据解析-selenium(pandas) 3 Scrapy框架 4 爬虫实战 阅读全文
posted @ 2021-07-06 19:25 风hua 阅读(56) 评论(0) 推荐(0) 编辑
摘要: 正则表达式语法 Python正则表达式 指定好匹配的模式-pattern 选择相应的方法-match,search等 得到匹配结果-group re.match #从开始位置开始匹配,如果开头没有则无 re.search #搜索整个字符串 re.findall #搜索整个字符串,返回一个list i 阅读全文
posted @ 2021-07-06 12:13 风hua 阅读(522) 评论(0) 推荐(0) 编辑
摘要: Shell脚本编程 1 Shell是什么 Shell是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务, Shell脚本(shell script),是一种为Shell编写的脚本程序。我们经常说的shell通常都是指shell脚本。 shell脚本就是将完成一个任务 阅读全文
posted @ 2021-07-06 01:32 风hua 阅读(416) 评论(0) 推荐(0) 编辑