摘要:Note_01 zip() itertools.zip_longest() %time Note_02 for 循环单行输出 list 技巧 迭代器 生成器 map() zip() from pathlib import PathPath.glob:可以用来查询文件名 import csvcsv.r
阅读全文
摘要:1. Python 中的逻辑否定用 not 2. 对于下面的代码直邮输入整数才能运行,无论字符串或者浮点型都会报错 可以通过 try 来修改,同时注意 raise 的使用 3. set 与 dict 都是大括号 4. random.choice() 可以随机选择列表里面的元素 random.rand
阅读全文
摘要:1. 文件内容增减 参考:如何在PDF文件中删除页面 参考:如何旋转、移动、删除和重新编号 PDF 页面 双击PDF文档,并在预览程序中打开它。 如果在其他程序(如Adobe Reader)中打开文档,那么右键点击文件,选择“打开方式”,然后选择“预览”。 点击“视图”菜单,然后选择“缩略图”选项。
阅读全文
摘要:OneHotEncoder独热编码和 LabelEncoder标签编码 pandas.DataFrame.groupby
阅读全文
摘要:参考:机器学习系列(3)_逻辑回归应用之Kaggle泰坦尼克之灾 参考:Kaggle泰坦尼克特征工程和模型融合 『解决一个问题的方法和思路不止一种』『没有所谓的机器学习算法优劣,也没有绝对高性能的机器学习算法,只有在特定的场景、数据和特征下更合适的机器学习算法。』 Kaggle上的大神们,也分享过一
阅读全文
摘要:Bag-of-words model:就是将句子打散成单词的集合。 N-gram model:同上,只是按照 n 进行顺序组合。 参考:机器学习实战教程(四):朴素贝叶斯基础篇之言论过滤器 留言板侮辱与非侮辱的分类举例 参考:利用机器学习算法进行特朗普twitter的主题分析 数据获取:Twitte
阅读全文
摘要:参考: python用列表生成式写嵌套循环的方法_python_脚本之家 参考: python之列表生成式 - 旷野足迹 - 博客园 对于读取Twitter数据最终会得到一个超级复杂的json文件, 也就是一堆字典嵌套, 因此找到想要的内容需要多几层嵌套, 而使用列表生成式可以有效减少代码数量, 主
阅读全文
摘要:参考: python--参数列表的分拆 参考: List Comprehensions 当你要传递的参数已经是一个列表,调用的函数却接受分开一个个的参数,这个时候可以考虑参数列表拆分: 可以使用* 操作符来自动把参数列表拆开: 可以使用 ** 操作符分拆关键字参数为字典: def parrot(vo
阅读全文
摘要:Vector Space Model:向量空间模型 参考: 向量空间模型(Vector Space Model)的理解 TF-IDF 参考: TF-IDF与余弦相似性的应用(一):自动提取关键词 参考: TF-IDF与余弦相似性的应用(二):找出相似文章 参考: TF-IDF与余弦相似性的应用(三)
阅读全文
摘要:参考: 支持向量机整理 SVM 硬边界的结果如下: $$min \quad \frac{1}{2} \sum_{i=1}^m\sum_{j=1}^m \alpha_i\alpha_jy_iy_j \vec x_i \vec x_j - \sum_{i=1}^m\alpha_i\\s.t. \quad
阅读全文
摘要:参考: 9.3 凸优化 · 如何在 Python 中利用 CVXOPT 求解二次规划问题 参考: Quadratic Programming - Official website 步骤如下: 首先安装 cvxopt library 将问题化成标准 QP 问题, 得到 P/q/G/h/A/b 直接利用
阅读全文
摘要:参考:知乎回答 - 通过山头形象描述 参考:马同学 - 如何理解拉格朗日乘子法? 参考: 马同学 - 如何理解拉格朗日乘子法和KKT条件? 参考:拉格朗日乘数 - Wikipedia 自己总结的规律 梯度为0, 其实就是说明里面每一个参数的偏导数都为0. 拉格朗日乘子法是对于等式约束. KKT条件是
阅读全文