摘要: 最近做了个微信推送kindle电子书的公众号:kindle免费书库不过目前电子书不算非常多,所以需要使用爬虫来获取足够书籍。于是,写了以下这个爬虫,来爬取kindle114的电子书。值得注意的地方:当爬取数过大时,由于对方有开启放抓取,会返回一个javascript而非原始的html,所以我使用的P... 阅读全文
posted @ 2014-11-30 10:40 KevinHwang 阅读(5284) 评论(5) 推荐(0) 编辑
摘要: 由于项目计划书写作需要,重画了Qi Zhang, Mohamed Faten Zhani, Raouf Boutaba, Joseph L. Hellerstein,Dynamic Heterogeneity-Aware Resource Provisioning in the Cloud. IEE... 阅读全文
posted @ 2014-11-17 07:52 KevinHwang 阅读(2387) 评论(1) 推荐(0) 编辑
摘要: 整体思路: 1 惰性缩容。不释放空间,留给到期释放等机制释放。 2 加倍扩容。在需要空间达1M之前按新空间两倍分配空间,否则按新空间大小+1M分配。注意,1M=1024*1024*Char。Char可以是5bits/8bits/16bits/32bits/64bits 具体代码块: 惰性缩容:htt 阅读全文
posted @ 2020-03-28 11:10 KevinHwang 阅读(1489) 评论(0) 推荐(0) 编辑
摘要: 1 使用腾讯源 Linux系统: 1.编辑/etc/profile文件(对所有用户永久生效) vi /etc/profile 2.添加系统环境变量,并保存 # /etc/profile: system-wide .profile file for the Bourne shell (sh(1)) # 阅读全文
posted @ 2020-03-16 21:49 KevinHwang 阅读(327) 评论(0) 推荐(0) 编辑
摘要: 新建并上传: 1 手工在github新建项目titanic 2 本地初始化 git init titanic 3 文件复制到本地项目目录 cp Titanic.ipynb titanic 4 备注(备注后才能上传) $ git commit -m "initial commit" 5 上传 git 阅读全文
posted @ 2020-03-16 08:29 KevinHwang 阅读(155) 评论(0) 推荐(0) 编辑
摘要: https://developer.aliyun.com/edu/course/33/learn#lesson/621 1 互联网应用架构概览 负载均衡器:将用户请求分配给网页服务器处理WebServer WebServer: 返回图片、网页等静态内容,将动态内容(购物车)等分配给应用服务器AppS 阅读全文
posted @ 2019-11-05 23:12 KevinHwang 阅读(463) 评论(0) 推荐(0) 编辑
摘要: https://edu.aliyun.com/course/11/learn#lesson/12 的学习笔记 第一章 机器学习概念、原理和应用场景 课时1 机器学习的基础概念 概述: ArtificialIntelligence ⊆ MachineLearning ⊆ DeepLearning AI 阅读全文
posted @ 2019-09-24 21:51 KevinHwang 阅读(242) 评论(0) 推荐(0) 编辑
摘要: 先上一个例子,这段代码是为了评估一个预测模型写的,详细评价说明在https://www.kaggle.com/c/how-much-did-it-rain/details/evaluation,它的核心是要计算在实际计算过程中,n很大(1126694),以至于单进程直接计算时间消耗巨大(14分10秒... 阅读全文
posted @ 2015-03-04 18:32 KevinHwang 阅读(2864) 评论(0) 推荐(0) 编辑
摘要: 以下代码为博客《Python的并行求和例子》:http://www.cnblogs.com/instant7/p/4312786.html中并行python代码的C语言重写版。用C来跑一遍单线程也只需要50秒,比python 开4进程的实现要快6倍多,CPU占用率也只用python的1/4。看来计算... 阅读全文
posted @ 2015-03-04 16:19 KevinHwang 阅读(1504) 评论(0) 推荐(0) 编辑
摘要: 对相关性patten质量的常用分析指标有以下这些其中,X^2 跟 lift不是null-invariant的,也就是说当~A~B项较多时,这两个指标不是很可靠。据Jiawei Han所言,Kulczynski这个指标是比较稳定而好用的,同时还要辅助观察imbalance ratio来看评价结果的争议... 阅读全文
posted @ 2015-02-23 11:10 KevinHwang 阅读(229) 评论(0) 推荐(0) 编辑
摘要: 几行代码的小工具,用于进行如下转换TRANSACTIONS ON CLOUD COMPUTING=》Transactions On Cloud Computingorig = 'TRANSACTIONS ON CLOUD COMPUTING'splited = orig.split(' ')hand... 阅读全文
posted @ 2015-02-17 22:42 KevinHwang 阅读(726) 评论(0) 推荐(0) 编辑
摘要: Clustering by fast search and find of density peak.Alex Rodriguez, Alessandro Laio是发表在Science上的一篇很好的阐述一种新聚类算法的paper,其自带代码http://www.sciencemag.org/con... 阅读全文
posted @ 2015-02-12 22:40 KevinHwang 阅读(1310) 评论(1) 推荐(0) 编辑