摘要: 为了便利化使用selenium驱动浏览器进行操作,遇到一个网页,大部分内容都是通过xhr请求后再通过前端js处理显示, 带来的一个问题就是,采用显示等待无法准确的定位到需要的节点。因此,需要考虑采用判断xhr请求是否完成后再进行定 位,或者直接获取xhr请求返回内容的做法。 参考链接: Seleni 阅读全文
posted @ 2022-07-09 23:34 forxtz 阅读(596) 评论(0) 推荐(0) 编辑
摘要: 在多指标的综合加权评价中,确定各项指标的权重是非常关键的环节。对各指标赋权的合理与否,直接关系到分析的结论。确定权重系数的方法很多,归纳起来分为两类:即主观赋权法和客观赋权法。主观赋权法是由评价人员根据各项指标的重要性而认为赋权的一种方法,充分反应专家的经验,目前,使用较多的是专家咨询法、层次分析法 阅读全文
posted @ 2021-05-24 08:59 forxtz 阅读(2536) 评论(0) 推荐(0) 编辑
摘要: 场景:严格意思上不应存在这种场景,如果存在,说明数据量太小了。举个例子,假设仅有29条数据的情况下,使用LSTM模型,如果直接使用该函数进行归集数据,则会造成验证集数据的一些浪费。 1.函数介绍 可以使用此函数在序列数据上重新归集滑动窗口数据。 keras.preprocessing.timeser 阅读全文
posted @ 2021-05-23 21:12 forxtz 阅读(852) 评论(0) 推荐(0) 编辑
摘要: 简介:以keras书中案例,讲述构建电影评论情感分类模型。 1.定义问题,收集数据 使用消极、积极两类电影评论集,构建对情感分类模型,并后续用于预测。由于只有两类,因此是一个二分类模型。 原始数据采用keras库中的imdb数据集,它包含来自互联网电影数据库(IMDB)的50 000 条严重两极分化 阅读全文
posted @ 2021-03-28 13:50 forxtz 阅读(967) 评论(0) 推荐(0) 编辑
摘要: 简介:处在一个网络隔离,又常需要进行调查分析的环境。常规性需要通过excel进行数据采集,校验,汇总,分析等工作。鉴于此,设计一个基于excel的统计系统。需求通过自身工作的场景进行获取,因此不一定契合用户喜好,所以干脆做出笔记,以便揣摩。 简单描述一个调查的过程: 1、确定调查事项及对象; 2、设 阅读全文
posted @ 2021-03-21 12:23 forxtz 阅读(361) 评论(0) 推荐(0) 编辑
摘要: 简介:遇到一个反爬虫机制,该网页为gbk编码网页,但是请求参数中,部分请求使用gbk编码,部分请求使用utf8编码,还设置了一些不进行编码的安全字符,在爬取的过程中形成了阻碍。 提示:在认为参数设置正常,又无法正确爬取数据的情况下,通过response.requests.headers和espons 阅读全文
posted @ 2021-03-17 11:00 forxtz 阅读(502) 评论(0) 推荐(0) 编辑
摘要: 简介:不同的服务器采用的网页编码可能不一样,如果使用错误的编码发送数据,将不会得到正确的数据。 目的:识别访问网页的编码,发送正确的编码数据和解码。 参考链接: Python+request:根据四种不同的提交数据方式进行post请求 Python 爬虫 (requests) 发送中文编码的 HTT 阅读全文
posted @ 2021-03-17 10:23 forxtz 阅读(1485) 评论(0) 推荐(0) 编辑
摘要: 简介:文本挖掘中,情感分析是经常需要使用到,而进行主题模型分析之前,对数据集进行文本分类再进行分析具有必要性,因为分类以后,每一类的主题才会更明显。而snownlp是一个python写的类库,可以方便的处理中文文本内容,主要看上了他的情感分类功能(二分类),分类是基于朴素贝叶斯的文本分类方法,当然也 阅读全文
posted @ 2021-03-10 23:13 forxtz 阅读(2485) 评论(0) 推荐(0) 编辑
摘要: 简介:前文python jieba+wordcloud使用笔记+词云分析应用讲到可以自定义Idf文档,所以来处理处理。算法已经有现成,本文讲解基本原理及其使用。 参考链接: sklearn-TfidfVectorizer 计算过程详解 百度百科-tf-idf CountVectorize和TfidV 阅读全文
posted @ 2021-03-10 00:15 forxtz 阅读(958) 评论(1) 推荐(0) 编辑
摘要: 系列介绍:文本挖掘比较常见,系列思路:1-基本情况介绍(分词,词云展示);2-根据语料库的tf-idf值及创建自己的idf文件;3-基于snownlp语料情感分析;4-基于gensim进行lda主题挖掘分析; 本文简介:对于大量的短文本需要进行分析的话,会使用到分词及可视化展示,中文分词没有明显的边 阅读全文
posted @ 2021-03-08 23:14 forxtz 阅读(2383) 评论(0) 推荐(0) 编辑