巫峡专栏

life is a huge undertaking

生活也是大事业

God helps those who help themselves

爱生活

爱技术

导航

2012年12月24日 #

我是屌丝程序猿,我爱有声小说---python多线程下载有声小说

摘要: 升级版,支持指定下载开始章节数,默认步长为10,直至下载完毕 阅读全文

posted @ 2012-12-24 15:42 巫峡 阅读(3672) 评论(22) 推荐(5) 编辑

2012年12月21日 #

浅谈中文文本自动纠错在影视剧搜索中应用与Java实现

摘要: 1.背景: 这周由于项目需要对搜索框中输入的错误影片名进行校正处理,以提升搜索命中率和用户体验,研究了一下中文文本自动纠错(专业点讲是校对,proofread),并初步实现了该功能,特此记录。2.简介: 中文输入错误的校对与更正是指在输入不常见或者错误文字时系统提示文字有误,最简单的例子就是在word里打字时会有红色下划线提示。实现该功能目前主要有两大思路:(1) 基于大量字典的分词法:主要是将待分析的汉字串与一个很大的“机器词典”中的词条进行匹配,若在词典中找到则匹配成功;该方法易于实现,比较适用于输入的汉字串 属于某个或某几个领域的名词或名称;(2) 基于统计信息的分词法:常用的是... 阅读全文

posted @ 2012-12-21 23:52 巫峡 阅读(3458) 评论(5) 推荐(2) 编辑

2012年12月14日 #

利用python对新浪微博用户标签进行分词并推荐相关用户

摘要: 新浪微博的开放平台的开发者日益活跃,除了商业因素外还有很大的一股民间工程师力量;大量热衷于群体行为研究与自然语言处理以及机器学习和数据挖掘的研究者 and 攻城师们开始利用新浪真实的数据和平台为用户提供更好的应用或者发现群体的行为规律包括一些统计信息,本文就是利用新浪开放平台提供的API对微博的用户标签进行分词处理,然后根据分词后的关键字给用户推荐感兴趣的人,在此记录下以备后用。requisition: python+sinaWeibo python SDK+ICTCLAS备注:ICTCLAS是中国科学院计算技术研究所提供的中文分词包开始上代码:1.先要注册新浪开发者以获得APP_KE... 阅读全文

posted @ 2012-12-14 22:50 巫峡 阅读(3101) 评论(2) 推荐(2) 编辑

2012年12月10日 #

mahout ItemBasedCF算法的输入参数

摘要: 1.maxPrefsPerUser------ 在计算用户向量时考虑喜好的最大数量2.maxSimilaritiesPerItem ------ 在计算item相似度时每行相似度的最大数3.maxPrefsPerUserInItemSimilarity------在计算item-vector时每个用户给予考虑最大喜好(评分)数量 阅读全文

posted @ 2012-12-10 23:07 巫峡 阅读(293) 评论(0) 推荐(0) 编辑

2012年11月28日 #

networkx安装

摘要: NetworkX是python实现的有关复杂网络的创建、处理、组织结构研究、动力学、函数的软件包,使用它可以方便的简历网络模型,使用算法求解并可视化。下面介绍一下如何安装networkx:1.确认是否以安装python的easy_install.exe(windows下),如果没有安装则从这里下载ez_setup.py文件,这里我将它保存在python的安装目录(C:\Python27)2.在命令行里使用python.exe ez_setup.py,见下图:这样在Scripts目录下就会生成easy_install.exe应用程序,使用它我们就可以安装networkx以及其它一些egg包了;. 阅读全文

posted @ 2012-11-28 22:13 巫峡 阅读(2953) 评论(0) 推荐(1) 编辑

2012年11月21日 #

[转] 移动终端广告介绍

摘要: 原文:http://www.cnblogs.com/playing/archive/2011/12/29.html广告样式Banner:banner是目前最普及的广告形式,各家广告平台都支持这一形式。Interstitial ads(插播式广告):在广告设计上有更多的空间,该方式受到品牌广告主青睐,主要以CPM计价,价格较高。但是由于影响用户体验,因此展示的次数不宜过多。Rich media:富媒体广告,包括视频,互动的Flash等。计费方式CPM:cost per thousand impression 每千次展示成本。CPM是最常用的网络广告定价模式之一,手机广告并不常用。CPC:cost 阅读全文

posted @ 2012-11-21 13:21 巫峡 阅读(195) 评论(0) 推荐(0) 编辑

2012年11月9日 #

视频网站推荐服务概况

摘要: 推荐系统 个性化推荐 影片关联 视频网站 播放器 阅读全文

posted @ 2012-11-09 16:47 巫峡 阅读(438) 评论(1) 推荐(1) 编辑

2012年10月12日 #

Hadoop HDFS 与Hbase升级笔记

摘要: 升级hadoop与hbase 阅读全文

posted @ 2012-10-12 12:44 巫峡 阅读(750) 评论(0) 推荐(0) 编辑

2012年9月27日 #

[转] 设置环境变量后不重启计算机使其生效的方法

摘要: 原文来自:http://blog.goods-pro.com/146/%E8%AE%A9%E7%8E%AF%E5%A2%83%E5%8F%98%E9%87%8F%E7%94%9F%E6%95%88%E4%B8%8D%E9%9C%80%E9%87%8D%E5%90%AFwindows/先到我的电脑>属性>高级>环境变量,添加新环境变量或修改已有的环境变量,然后运行“DOS命令提示符”或run cmd,假设要修改PATH变量,不管PATH的原值是什么,在DOS窗口直接把PATH修改为任意值,关闭DOS窗口,这时,我的电脑>属性>高级>环境变量里PATH已经在Wi 阅读全文

posted @ 2012-09-27 14:31 巫峡 阅读(1327) 评论(0) 推荐(0) 编辑

2012年8月3日 #

Zookeeper安装注意事项

摘要: 关于如何安装zookeeper,csdn里有很多,这里不赘述,请参考http://blog.csdn.net/franklysun/article/details/6424582。下面说一下本人在安装时遇到的问题: 1. 安装zookeeper的机器上要安装nc,避免出现HMaster与zookeeper连接成功,但立即又断开的错误; 2. zookeeper的zoo.cfg中maxClientCnxns的值调大一点,避免出现连接数过多的错误。 阅读全文

posted @ 2012-08-03 16:27 巫峡 阅读(379) 评论(0) 推荐(0) 编辑