西西嘛呦

2020年11月3日

摘要：代码已上传到github：https://github.com/taishan1994/tensorflow-text-classification 往期精彩：利用TfidfVectorizer进行中文文本分类（数据集是复旦中文语料）利用RNN进行中文文本分类（数据集是复旦中文语料）利用CNN 阅读全文

posted @ 2020-11-03 23:16 西西嘛呦阅读(1459) 评论(0) 推荐(0) 编辑

2020年10月29日

利用transformer进行中文文本分类（数据集是复旦中文语料）

摘要：利用TfidfVectorizer进行中文文本分类（数据集是复旦中文语料）利用RNN进行中文文本分类（数据集是复旦中文语料）利用CNN进行中文文本分类（数据集是复旦中文语料）和之前介绍的不同，重构了些代码，为了使整个流程更加清楚，我们要重新对数据进行预处理。阅读本文，你可以了解中文文本分类从阅读全文

posted @ 2020-10-29 23:05 西西嘛呦阅读(4244) 评论(0) 推荐(2) 编辑

2020年10月19日

利用CNN进行中文文本分类（数据集是复旦中文语料）

摘要：利用TfidfVectorizer进行中文文本分类（数据集是复旦中文语料）利用RNN进行中文文本分类（数据集是复旦中文语料）上一节我们利用了RNN（GRU）对中文文本进行了分类，本节我们将继续使用CNN对中文文本进行分类。数据处理还是没有变，只是换了个模型，代码如下： # coding: ut 阅读全文

posted @ 2020-10-19 20:56 西西嘛呦阅读(2082) 评论(8) 推荐(0) 编辑

2020年10月18日

利用RNN进行中文文本分类（数据集是复旦中文语料）

摘要：利用TfidfVectorizer进行中文文本分类（数据集是复旦中文语料） 1、训练词向量数据预处理参考利用TfidfVectorizer进行中文文本分类（数据集是复旦中文语料），现在我们有了分词后的train_jieba.txt和test_jieba.txt，看一下部分内容： fenci_pa 阅读全文

posted @ 2020-10-18 17:02 西西嘛呦阅读(2143) 评论(0) 推荐(1) 编辑

2020年10月17日

可变数据类型不能作为python函数的参数

摘要：可变数据类型：列表、字典不可变数据类型：整型、浮点型、字符串、元组为什么可变数据类型不能作为python函数的参数？请看以下例子： def foo(a=[]): a.append(1) return a print(foo()) print(foo()) print(foo()) 结果： [1] 阅读全文

posted @ 2020-10-17 19:27 西西嘛呦阅读(303) 评论(0) 推荐(0) 编辑

2020年10月14日

pyspark读取pickle文件内容并存储到hive

摘要：在平常工作中，难免要和大数据打交道，而有时需要读取本地文件然后存储到Hive中，本文接下来将具体讲解。过程：使用pickle模块读取.plk文件；将读取到的内容转为RDD；将RDD转为DataFrame之后存储到Hive仓库中； 1、使用pickle保存和读取pickle文件 import 阅读全文

posted @ 2020-10-14 21:30 西西嘛呦阅读(1288) 评论(0) 推荐(0) 编辑

2020年10月13日

pycaret之模型部署

摘要： 1、预测模型一旦使用deploy_model将模型成功部署到云中，或者使用save_model在本地成功部署了模型，就可以使用predict_model函数将其用于看不见的数据进行预测。此功能采用训练有素的模型对象和数据集进行预测。它将自动应用实验过程中创建的整个转换管道。对于分类，将基于50 阅读全文

posted @ 2020-10-13 21:51 西西嘛呦阅读(642) 评论(0) 推荐(0) 编辑

pycaret模型分析

摘要： 1、解释模型解释复杂模型在机器学习中至关重要。模型可解释性通过分析模型真正认为的重要内容来帮助调试模型。在PyCaret中解释模型就像编写interpret_model一样简单。该函数将训练有素的模型对象和图的类型作为字符串。解释是基于SHAP（SHapley Additive exPla 阅读全文

posted @ 2020-10-13 21:37 西西嘛呦阅读(938) 评论(0) 推荐(0) 编辑

2020年10月11日

pycaret模型分析之绘制模型结果

摘要：分析训练完成的机器学习模型的性能是任何机器学习工作流程中必不可少的步骤。在PyCaret中分析模型性能就像编写plot_model一样简单。该函数将受训的模型对象和图的类型作为plot_model函数中的字符串。分类： Name Plot Area Under the Curve ‘auc’ 阅读全文

posted @ 2020-10-11 20:43 西西嘛呦阅读(866) 评论(0) 推荐(0) 编辑

pycaret之集成模型（集成模型、混合模型、堆叠模型）

摘要： 1、集成模型组装训练好的模型就像编写ensemble_model一样简单。它仅采用一个强制性参数，即经过训练的模型对象。此函数返回一个表，该表具有k倍的通用评估指标的交叉验证分数以及训练有素的模型对象。使用的评估指标是：分类：准确性，AUC，召回率，精度，F1，Kappa，MCC回归：MAE，MS 阅读全文

posted @ 2020-10-11 20:25 西西嘛呦阅读(1612) 评论(0) 推荐(0) 编辑

从自己能做到的开始，一件件来，缓慢而坚定地前进，尽力而为

公告