会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
huaobin
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
8
9
10
11
12
13
14
15
16
···
48
下一页
2022年3月18日
以京东商品评论为目标网站,架构采用爬虫+Flume+Kafka+Spark Streaming+Mysql,实现数据动态实时的采集、分析、展示数据。
摘要: #-*- codeing =utf-8 -*- #@Time : 2022/3/16 20:15 #@Author : huaobin #@File : new.py #@Software: PyCharm # -*- coding: utf-8 -*- import gzip import url
阅读全文
posted @ 2022-03-18 09:00 青竹之下
阅读(269)
评论(0)
推荐(0)
编辑
2022年3月17日
语法解析
摘要: 每个人一定都学过语法,例如句子可以用主语、谓语、宾语来表示。在自然语言的处理过程中,有许多应用场景都需要考虑句子的语法,因此研究语法解析变得非常重要。 语法解析有两个主要的问题,其一是句子语法在计算机中的表达与存储方法,以及语料数据集;其二是语法解析的算法。 对于第一个问题,我们可以用树状结构图来表
阅读全文
posted @ 2022-03-17 16:52 青竹之下
阅读(191)
评论(0)
推荐(0)
编辑
自然语言处理基本入门案例
摘要: ,收集了一些客户对于饭店的评价,目标是将他们进行分类,分成好评和差评 NLTK的介绍:NLTK是一个高效的Python构建的平台,用来处理人类自然语言数据。它提供了易于使用的接口,通过这些接口可以访问超过50个语料库和词汇资源(如WordNet),还有一套用于分类、标记化、词干标记、解析和语义推理的
阅读全文
posted @ 2022-03-17 16:51 青竹之下
阅读(44)
评论(0)
推荐(0)
编辑
2022年3月16日
自然语言处理+学习笔记
摘要: 1、自然语言处理学习路径规划 自然语言处理(NLP)开发环境搭建 分词demo(搭建helloworld工程) 案例:nlp实现预测天气冷暖感知度 案例需求和数据准备 可视化数据分析 KNN模型原理及欧式距离计算 KNN分类器模型实现 利用KNN分类器采访随机游客预测天气感知度 机器学习库sklea
阅读全文
posted @ 2022-03-16 09:00 青竹之下
阅读(35)
评论(0)
推荐(0)
编辑
深度学习参数调优
摘要: 1:优化器。机器学习训练的目的在于更新参数,优化目标函数,常见优化器有SGD,Adagrad,Adadelta,Adam,Adamax,Nadam。其中SGD和Adam优化器是最为常用的两种优化器,SGD根据每个batch的数据计算一次局部的估计,最小化代价函数。 学习速率决定了每次步进的大小,因此
阅读全文
posted @ 2022-03-16 08:00 青竹之下
阅读(159)
评论(0)
推荐(0)
编辑
2022年3月15日
调参深度解析——学习率设置原则
摘要: 学习率设置原则(在这主要以迁移学习为主): 由于模型已经在原始数据上收敛,所以应该设置较小学习率,在新数据上微调。若非迁移学习则先将学习率设置在0.01~0.001为宜,一定轮数之后再逐渐减缓,接近训练结束学习率的衰减应在100倍以上。 目标函数损失值 曲线(理想状态应该为绿色滑梯式下降曲线): 曲
阅读全文
posted @ 2022-03-15 09:00 青竹之下
阅读(989)
评论(0)
推荐(0)
编辑
参数调优——Batch size
摘要: batch size大小选取原则: CPU是非常讨厌16,32,64…… 这样大小的(2^*)数组的;(具体原因网上好像有说明,但没太细看:Data alignment and caches) GPU好像没有类似的问题,但我还是要劝大家,超参的选取随意点。而且GPU上好像推荐取32 的倍数 个人觉得
阅读全文
posted @ 2022-03-15 08:00 青竹之下
阅读(92)
评论(0)
推荐(0)
编辑
2022年3月14日
Python处理PDF操作
摘要: 今天的具体内容将会从以下几个小节展开: 相关介绍 批量拆分 批量合并 提取文字内容 提起表格内容 提起图片内容 转换为PDF图片 添加水印 加密与解码 上述操作比较常用,也可以解决较多的办公内容,下面直接开始本节内容: 1. 相关介绍 Python 操作 PDF 会用到两个库,分别是:PyPDF2
阅读全文
posted @ 2022-03-14 11:02 青竹之下
阅读(442)
评论(0)
推荐(0)
编辑
python的PDF处理2
摘要: 6. 提取图片内容 提取 PDF 中的图片和将 PDF 转存为图片是不一样的(下一小节),需要区分开。 提取图片:顾名思义,就是将内容中的图片都提取出来; 转存为图片:则是将每一页的 PDF 内容存成一页一页的图片,下一小节会详细说明 转存为图片中,需要用到一个模块叫 fitz,fitz 的最新版
阅读全文
posted @ 2022-03-14 11:01 青竹之下
阅读(226)
评论(0)
推荐(0)
编辑
python处理PDF3
摘要: 文档加密与解密 你可能在打开部分 PDF 文件的时候,会弹出下面这个界面: 这种就是 PDF 文件被加密了,在打开的时候需要相应的密码才行 本节所提到的也只是基于 PDF 文档的加密解密,而不是所谓的 PDF 密码破解。 在对 PDF 文件加密需要使用 encrypt 函数,对应的加密代码也比较简单
阅读全文
posted @ 2022-03-14 11:00 青竹之下
阅读(137)
评论(0)
推荐(0)
编辑
上一页
1
···
8
9
10
11
12
13
14
15
16
···
48
下一页
公告