随笔 - 16  文章 - 0  评论 - 5  阅读 - 17711
  2023年9月5日

  分词

  1. 得到语言首先使用分词机器进行分词
  2. 首先使用正则表达式过滤标点 空格,一般使用NLTK进行首次分词
  3. n-gram 相邻的词组成短语,更有意义。
  4. 停用词的过滤 a an the of之类
  5. 大小写转换
  6. 词干还原house houses houseing 还原成house ,nltk.stem.porter包还原成原来的词
  7. 词形归并better good goods best 还原成good,使用nltk.downlad('wordnet') ,需要设定分析的词词性,比如名词还是动词
  8. 基于分词的情感分析,使用vader进行分词检测语句的情感倾向,是高兴还是生气,表情包,语气词等设定特定词的情感得分,会有总体和乐观、悲观、中性四种评分。
  9. 朴素贝叶斯 根据下载的模型设定情感分析分值,用这个来衡量情感,相比vader 不用自己维护情感分值,并且可以基于各个数据集进行评估。

 词中的数学

  1. 词袋无序分词,单个词出现次数/文档中词数量 = 词项频率 分析一个词对一个文档的重要性,数量大重要性大;nltk使用停用词库过滤停用词nltk.download('stopwords',quiet=True),nltk.corpus.stopwords.words('english')完成对英文停用词的下载。
  2. 把词频做成数组,数据就是向量,计算向量之间的余玄值确定两个文档之间描述的内容是否一致。
  3. 齐普夫定律对于一个大型的文档,出现频率最高的词是第二的两倍,是第三的三倍,是第四的四倍,大致遵循随坐标递减的效果。
  4. 相同主题的文档,相同词在文档中出现的频率使用对数更能确定词与文档的相关性;tf=关键字在文档中出现的次数/文档的长度;idf =lg文档总数/包含关键字的文档数;tf-idf =tf*idf得出得结果,即关键词在给定得文档中赋一个重要度值。多个词得重要度组成向量,向量得余弦相似度高我们认为这两个文档相似,可以作为搜索引擎抓取文章得依据。

 词频背后的语义

  1. 使用不同文字描述相同内容的文档,在词频向量上的余玄没有相同,所以描述不了相同的语义,需要使用主题向量来描述用不同语言描述的内容。
posted @ 2023-09-05 22:45 black2bi 阅读(15) 评论(0) 推荐(0) 编辑
  2023年8月7日
摘要: 1.针对初始拍的图片有许多不满意的地方图像过暗,图像过亮,分辨率不够这时间就需要 图像过暗 输入图像 输出图像 掩膜的宽高 研磨作业的系数。用于提高图像总体亮度。 illuminate(Image, image,200,200, 0.9) 掩膜范围,提升强度 暗部亮度 原图像 处理后 边缘不清晰 原 阅读全文
posted @ 2023-08-07 10:16 black2bi 阅读(928) 评论(0) 推荐(0) 编辑
  2023年8月3日
摘要: 1.恢复大原则 想恢复数据,比如删除一行,如果没有备份,要从插入数据的那一行或者那一天开始恢复。如果从未备份,想恢复删除的数据,要从系统开始一点一点恢复,会把这个系统建立后所有执行的语句再执行一遍。所以要经常备份。否则出幺蛾子难搞 2.恢复操作 默认安装数据文件大概再这个位置 C:\ProgramD 阅读全文
posted @ 2023-08-03 20:55 black2bi 阅读(1109) 评论(0) 推荐(0) 编辑
  2023年3月9日
摘要: docker MySQL Linux 远程连接 服务提供 阅读全文
posted @ 2023-03-09 20:47 black2bi 阅读(190) 评论(1) 推荐(0) 编辑
  2022年3月8日
摘要: 1.公司用svn ,开发完了弄到现场脱离SVN。需要使用git管理。 2.公用的地方先建一个仓库,不要加初始化,什么也不要加,就弄个名字。 3.用vs2022打开项目选择创建git存储库,把其他项目的.gitattributes、.gitignore手动复制到项目中 4.在.gitignore中添加 阅读全文
posted @ 2022-03-08 11:20 black2bi 阅读(61) 评论(0) 推荐(0) 编辑
  2021年10月15日
摘要: 用一次忘一次,来回折腾好几次,再加上公司这个破网,草草草。专门为这些稀烂写个备注。 1.装上tortoisesvn,找到地址后录入账户密码,2. setting 里面的globoal ignore里面 bin obj 加入防止导入文件夹3.setting里面 *.vs 加入防止导入打开的文件内容4. 阅读全文
posted @ 2021-10-15 19:37 black2bi 阅读(41) 评论(0) 推荐(0) 编辑
  2021年3月27日
摘要: 使用概述 C#的使用过程中,除了以前的Thread、ThreadPool等用来开一个线程用来处理异步的内容。还可以使用新特性来处理异步。比以前的Thread和AutoResetEvent、delegete一起使用要方便一些。 以前如果使用Thread、AutoResetEvent用来使用异步处理一个 阅读全文
posted @ 2021-03-27 15:25 black2bi 阅读(533) 评论(0) 推荐(0) 编辑
  2020年12月19日
摘要: 视觉设备分为光源 镜头 相机 三大类 光源 光源分为背光源、平行同轴光、环形光源、点光源、条形光源,光源为了凸显轮廓和曝光补光 光源常用的白色、红色、绿色、蓝色、紫色光源,波长从高到底。彩色光源为了色彩互补或吸收对应的色彩。 光源常用光源控制器,一般都是用RS232串口通讯.一个控制器一般可以控制多 阅读全文
posted @ 2020-12-19 08:10 black2bi 阅读(440) 评论(0) 推荐(0) 编辑
  2020年5月22日
摘要: 问题: 公司开了个新项目,算上我一共3个人。车间里机台通过流水线连通联动的玩意。一个管理控制系统连接各个机台和硬件。专机类型就有5种,个数差不多20个左右。 软件规划的时候采用总分的结构,管理控制系统和专机子系统之间通过消息中间件通讯。本来也想TCP连接来着,但是开发时间不允许。而且每个系统都得写一 阅读全文
posted @ 2020-05-22 17:25 black2bi 阅读(972) 评论(0) 推荐(3) 编辑
  2019年4月16日
摘要: 1.场景介绍 公司最近接了个客户,客户自有ERP技术C++ oracle,公司提供MES\APS等系统,因为客户很有钱,所以客户买了很好的服务器,因为有个很好的服务器,所以客户就只有一种类型的数据源就是oracle. 又因为数据源上有很重要的客户资料和营收信息,客户方经理以物理隔离为由让我们离他们的 阅读全文
posted @ 2019-04-16 20:48 black2bi 阅读(489) 评论(0) 推荐(0) 编辑
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示