上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 48 下一页
摘要: #-*- codeing =utf-8 -*- #@Time : 2022/3/16 20:15 #@Author : huaobin #@File : new.py #@Software: PyCharm # -*- coding: utf-8 -*- import gzip import url 阅读全文
posted @ 2022-03-18 09:00 青竹之下 阅读(269) 评论(0) 推荐(0) 编辑
摘要: 每个人一定都学过语法,例如句子可以用主语、谓语、宾语来表示。在自然语言的处理过程中,有许多应用场景都需要考虑句子的语法,因此研究语法解析变得非常重要。 语法解析有两个主要的问题,其一是句子语法在计算机中的表达与存储方法,以及语料数据集;其二是语法解析的算法。 对于第一个问题,我们可以用树状结构图来表 阅读全文
posted @ 2022-03-17 16:52 青竹之下 阅读(191) 评论(0) 推荐(0) 编辑
摘要: ,收集了一些客户对于饭店的评价,目标是将他们进行分类,分成好评和差评 NLTK的介绍:NLTK是一个高效的Python构建的平台,用来处理人类自然语言数据。它提供了易于使用的接口,通过这些接口可以访问超过50个语料库和词汇资源(如WordNet),还有一套用于分类、标记化、词干标记、解析和语义推理的 阅读全文
posted @ 2022-03-17 16:51 青竹之下 阅读(44) 评论(0) 推荐(0) 编辑
摘要: 1、自然语言处理学习路径规划 自然语言处理(NLP)开发环境搭建 分词demo(搭建helloworld工程) 案例:nlp实现预测天气冷暖感知度 案例需求和数据准备 可视化数据分析 KNN模型原理及欧式距离计算 KNN分类器模型实现 利用KNN分类器采访随机游客预测天气感知度 机器学习库sklea 阅读全文
posted @ 2022-03-16 09:00 青竹之下 阅读(35) 评论(0) 推荐(0) 编辑
摘要: 1:优化器。机器学习训练的目的在于更新参数,优化目标函数,常见优化器有SGD,Adagrad,Adadelta,Adam,Adamax,Nadam。其中SGD和Adam优化器是最为常用的两种优化器,SGD根据每个batch的数据计算一次局部的估计,最小化代价函数。 学习速率决定了每次步进的大小,因此 阅读全文
posted @ 2022-03-16 08:00 青竹之下 阅读(159) 评论(0) 推荐(0) 编辑
摘要: 学习率设置原则(在这主要以迁移学习为主): 由于模型已经在原始数据上收敛,所以应该设置较小学习率,在新数据上微调。若非迁移学习则先将学习率设置在0.01~0.001为宜,一定轮数之后再逐渐减缓,接近训练结束学习率的衰减应在100倍以上。 目标函数损失值 曲线(理想状态应该为绿色滑梯式下降曲线): 曲 阅读全文
posted @ 2022-03-15 09:00 青竹之下 阅读(989) 评论(0) 推荐(0) 编辑
摘要: batch size大小选取原则: CPU是非常讨厌16,32,64…… 这样大小的(2^*)数组的;(具体原因网上好像有说明,但没太细看:Data alignment and caches) GPU好像没有类似的问题,但我还是要劝大家,超参的选取随意点。而且GPU上好像推荐取32 的倍数 个人觉得 阅读全文
posted @ 2022-03-15 08:00 青竹之下 阅读(92) 评论(0) 推荐(0) 编辑
摘要: 今天的具体内容将会从以下几个小节展开: 相关介绍 批量拆分 批量合并 提取文字内容 提起表格内容 提起图片内容 转换为PDF图片 添加水印 加密与解码 上述操作比较常用,也可以解决较多的办公内容,下面直接开始本节内容: 1. 相关介绍 Python 操作 PDF 会用到两个库,分别是:PyPDF2 阅读全文
posted @ 2022-03-14 11:02 青竹之下 阅读(442) 评论(0) 推荐(0) 编辑
摘要: 6. 提取图片内容 提取 PDF 中的图片和将 PDF 转存为图片是不一样的(下一小节),需要区分开。 提取图片:顾名思义,就是将内容中的图片都提取出来; 转存为图片:则是将每一页的 PDF 内容存成一页一页的图片,下一小节会详细说明 转存为图片中,需要用到一个模块叫 fitz,fitz 的最新版 阅读全文
posted @ 2022-03-14 11:01 青竹之下 阅读(226) 评论(0) 推荐(0) 编辑
摘要: 文档加密与解密 你可能在打开部分 PDF 文件的时候,会弹出下面这个界面: 这种就是 PDF 文件被加密了,在打开的时候需要相应的密码才行 本节所提到的也只是基于 PDF 文档的加密解密,而不是所谓的 PDF 密码破解。 在对 PDF 文件加密需要使用 encrypt 函数,对应的加密代码也比较简单 阅读全文
posted @ 2022-03-14 11:00 青竹之下 阅读(137) 评论(0) 推荐(0) 编辑
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 48 下一页