摘要: 前言 线性二分查找在查找目标数据的时候,每次都是进行二等分取区间。但是,当出现某种极端的情况时,这种查找就会显得比较低效。 本文将古典概率模型与线性二分查找算法结合,希望找到一种高效的非线性二分查找算法。 算法思想 我们认为,在每一次进行二分时,前面的二分方式,对本次二分是有影响的。举例来说,在进行 阅读全文
posted @ 2019-02-28 09:52 yimengtianya1 阅读(201) 评论(0) 推荐(0) 编辑
摘要: 本文为《机器学习实战》第二章的实操,由于原文采用的是Python2.x环境,另外局部地方也并没有完全给出代码,因此本文对此稍作修正。 另外,本文采用的数据集是datingTestSet2.txt不是datingTestSet.txt。因为datingTestSet2.txt中分类结果是以数字为分类结 阅读全文
posted @ 2019-01-20 15:41 yimengtianya1 阅读(237) 评论(0) 推荐(0) 编辑
摘要: 爬虫目的:爬取拉勾网上数据分析岗的数据,以便分析当前数据分析岗的需求现状。 爬虫实现的功能:根据城市名称、岗位名称关键字,即可爬取拉勾网上所需的数据信息。 爬虫的主要模块: 主函数与信息存储模块main.py 网页下载模块https.py 网页解析模块parse.py IP代理池setting.py 阅读全文
posted @ 2018-07-03 20:37 yimengtianya1 阅读(2094) 评论(1) 推荐(0) 编辑
摘要: 背景是这样的,我手上有一份统计表,需要将IP地址里的省市提取出来,以便于处理。因此我首先想到了Python里的正则表达式,打算写一个自定义函数去批量提取。然而之前没学VBA里的正则表达式语法,因此就去网上搜了一下,结果发现根本不能运行。几经辗转,总算搞定,因此总结一下,供后来者参考。 有几点说明: 阅读全文
posted @ 2018-06-19 20:21 yimengtianya1 阅读(2764) 评论(0) 推荐(0) 编辑
摘要: 案例:主要是基于“蒙特卡罗思想”,求解排队等待时间问题 场景:厕所排队问题 1、两场电影结束时间相隔较长,互不影响; 2、每场电影结束之后会有20个人想上厕所; 3、这20个人会在0到10分钟之内全部到达厕所; 4、每个人上厕所时间在1-3分钟之间 首先模拟最简单的情况,也就是厕所只有一个位置,不考 阅读全文
posted @ 2018-04-25 18:02 yimengtianya1 阅读(4974) 评论(0) 推荐(0) 编辑
摘要: Python开发——利用正则表达式实现计算器算法 (1)不使用eval()等系统自带的计算方法 (2)实现四则混合运算、括号优先级解析 思路: 1、字符串预处理,将所有空格去除 2、判断是否存在括号运算,若存在进行第3步,若不存在则直接进入第4步 3、利用正则表达式获取最底层括号内的四则运算表达式 阅读全文
posted @ 2018-04-25 16:53 yimengtianya1 阅读(973) 评论(0) 推荐(1) 编辑
摘要: 初偿用Python处理时间序列的数据,碰到一些坑。以此文记录一下,希望后来者可以少走弯路。 背景说明:我是用一个已有的csv数据表作为原材料进行处理的。 目的:实现时间序列的可视化,及周期性的可视化。 1、碰到的第一个坑是,导入到时间数据,默认的是字符串的数据类型。因此,在可视化的时候,会出现没有按 阅读全文
posted @ 2018-09-02 23:38 yimengtianya1 阅读(8380) 评论(0) 推荐(0) 编辑
摘要: 若一个查询同时涉及两个或两个以上的表,则称之为连接查询。连接查询是数据库中最最要的查询。 包括: (1)等值连接查询 (2)自然连接查询 (3)非等值连接查询 (4)自身连接查询 (5)外连接查询 (6)复合条件查询 1.等值与非等值连接查询: 比较运算符主要有=、>、<、>=、<=、!=(或<>) 阅读全文
posted @ 2018-04-25 23:01 yimengtianya1 阅读(328) 评论(0) 推荐(0) 编辑
摘要: 1.Union求并集 Union可以对两个或多个结果集进行连接,形成“并集”。子结果集所有的记录组合在一起形成新的结果集。 1.1限定条件 (1)子结果集要具有相同的结构。 (2)字结果集的列数必须相同。 (3)子结果集对应的数据类型必须可以兼容。 (4)每个子结果集不能包含order by和com 阅读全文
posted @ 2018-04-25 23:00 yimengtianya1 阅读(307) 评论(0) 推荐(0) 编辑
摘要: 1.获取MySQL版本号 VERSION() 示例: SELECT VERSION() 返回结果为:5.7.21-log 2.查看当前用户的连接数 connection_ID() #显示MySQL服务器启动之后被连接的次数 示例: SELECT connection_ID() 结果为:6 3.查看当 阅读全文
posted @ 2018-04-25 22:30 yimengtianya1 阅读(152) 评论(0) 推荐(0) 编辑
摘要: 1.计算字符数、字符串长度的函数 char_length(S) #计算字符串的字符数 length(S) #计算字符串的占用内存的字节数 2.合并字符串函数 concat(S1,S2...) #拼接字符串,如果后面存在NULL,则返回NULL concat_ws(X,S1,S2...) #连接符连接 阅读全文
posted @ 2018-04-25 22:26 yimengtianya1 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 1.绝对值函数 ABS(X) 2.符号函数 sign(X) #返回1、-1、0 3.获取随机数函数 rand() #返回(1,-1)内的一个随机数 rand(X) #返回(1,-1)内的一个固定的随机数 4.获取整数的函数 ceil(X) / ceiling(X) #ceil(X) / ceilin 阅读全文
posted @ 2018-04-25 22:25 yimengtianya1 阅读(161) 评论(0) 推荐(0) 编辑