摘要:1.需求 使用hvie server一段时间后,业务部门需要自己不定时的查询业务数据,之前这一块都是他们提需求我们来做,后来发现这样重复一样的工作放在我们这边做是在没有效率,遂提出给他们工具或者web UI自助查询,当然hive有自己的hwi可以通过网页UI进行自助查询,但是这对不懂sql的业务人...
阅读全文
摘要:python socket.error: [Errno 10054] 远程主机强迫关闭了一个现有的连接。问题解决方案:前几天使用python读取网页。因为对一个网站大量的使用urlopen操作,所以会被那个网站认定为攻击行为。有时就不再允许下载。导致urlopen()后,request.read()一直卡死在那里。最后会抛出errno 10054.这个错误是connection reset by peer.也就是传说的远端主机重置了此连接。原因可能是socket超时时间过长;也可能是request = urllib.request.urlopen(url)之后,没有进行request.clos
阅读全文
摘要:当列表已经不能满足人们对信息的呈现时,标签云这种展现方式很好地满足了人们关注重点、突出趋势、显示偏好的浏览需求,本文简单介绍下使用python生成标签云。有两种方式: 1. 自己实现 (可以参考http://www.i-alive.com/post/11/) 2.使用现有库,主要是pytagcloud本文主要是利用pytagcloud这个库进行标签云的生成。首先需要安装它,不过在此之前如果你的机器上没有安装pygame和simplejson两个python包,则需要先下载安装他们;这三个包安装完成以后,使用就很简单了,例子代码如下: 1 from pytagcloud ...
阅读全文
摘要:在python中有个特殊的符号“*”,可以用做数值运算的乘法算子,也是用作对象的重复算子,但在作为重复算子使用时一定要注意注意的是:*重复出来的各对象具有同一个id,也就是指向在内存中同一块地址,在对各个对象进行操作是一定要注意。举例来说:1 >>> alist = [range(3)]*42 >>> alist3 [[0, 1, 2], [0, 1, 2], [0, 1, 2], [0, 1, 2]]上面初始化一个二层列表用来模拟矩阵,该矩阵式4X3的,为描述方便,这里记矩阵为A。现在我想给A11赋值为1,用下面的代码:alist[0][0]=1那我们想要
阅读全文
摘要:升级版,支持指定下载开始章节数,默认步长为10,直至下载完毕
阅读全文
摘要:新浪微博的开放平台的开发者日益活跃,除了商业因素外还有很大的一股民间工程师力量;大量热衷于群体行为研究与自然语言处理以及机器学习和数据挖掘的研究者 and 攻城师们开始利用新浪真实的数据和平台为用户提供更好的应用或者发现群体的行为规律包括一些统计信息,本文就是利用新浪开放平台提供的API对微博的用户标签进行分词处理,然后根据分词后的关键字给用户推荐感兴趣的人,在此记录下以备后用。requisition: python+sinaWeibo python SDK+ICTCLAS备注:ICTCLAS是中国科学院计算技术研究所提供的中文分词包开始上代码:1.先要注册新浪开发者以获得APP_KE...
阅读全文
摘要:NetworkX是python实现的有关复杂网络的创建、处理、组织结构研究、动力学、函数的软件包,使用它可以方便的简历网络模型,使用算法求解并可视化。下面介绍一下如何安装networkx:1.确认是否以安装python的easy_install.exe(windows下),如果没有安装则从这里下载ez_setup.py文件,这里我将它保存在python的安装目录(C:\Python27)2.在命令行里使用python.exe ez_setup.py,见下图:这样在Scripts目录下就会生成easy_install.exe应用程序,使用它我们就可以安装networkx以及其它一些egg包了;.
阅读全文