摘要:
在上一篇博文中,我们对KNN算法思想及流程有了初步的了解,KNN是采用测量不同特征值之间的距离方法进行分类,也就是说对于每个样本数据,需要和训练集中的所有数据进行欧氏距离计算。这里简述KNN算法的特点:优点:精度高,对异常值不敏感,无数据输入假定缺点:计算复杂度高,空间复杂度高适用数据范围:数值... 阅读全文
2014年7月26日
2014年7月22日
摘要:
机器学习新手,接触的是《机器学习实战》这本书,感觉书中描述简单易懂,但对于python语言不熟悉的我,也有很大的空间。今天学习的是k-近邻算法。 1. 简述机器学习 在日常生活中,人们很难直接从原始数据本身获得所需信息。而机器学习就是把生活中无序的数据转换成有用的信息。例如,对于垃圾邮件的检... 阅读全文
2014年7月17日
摘要:
上一篇博文中,我们使用结巴分词对文档进行分词处理,但分词所得结果并不是每个词语都是有意义的(即该词对文档的内容贡献少),那么如何来判断词语对文档的重要度呢,这里介绍一种方法:TF-IDF。 一,TF-IDF介绍 TF-IDF(Term Frequency–Inverse Document F... 阅读全文
2014年7月14日
摘要:
今天的任务是对txt文本进行分词,有幸了解到"结巴"中文分词,其愿景是做最好的Python中文分词组件。有兴趣的朋友请点这里。jieba支持三种分词模式: *精确模式,试图将句子最精确地切开,适合文本分析; *全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; *... 阅读全文
2014年7月11日
摘要:
上一篇文章中已经介绍了简单的python爬网页下载文档,但下载后的文档多为doc或pdf,对于数据处理仍然有很多限制,所以将doc/pdf转换成txt显得尤为重要。查找了很多资料,在linux下要将doc转换成txt确实有难度,所以考虑先将pdf转换成txt。 师兄推荐使用PDFMiner来处... 阅读全文
2014年7月10日
摘要:
新手学python,写了一个抓取网页后自动下载文档的脚本,和大家分享。 首先我们打开三亿文库下载栏目的网址,比如专业资料(IT/计算机/互联网)http://3y.uu456.com/bl-197?od=1&pn=0,可以观察到,链接中pn=后面的数字就是对应的页码,所以一会我们会用iurl =... 阅读全文
2014年7月6日
摘要:
前段时间买了新本,装了双系统,win8和kubuntu 14.04,使用的过程感觉都不错,因为平时玩游戏看视频是用win8,但最近打算在kubuntu上听音乐时,发现音频没有声音,麦克风也没有声音,这难免让人有点纳闷。 一般来说,音频没声音,一般和发行版本无关,和系统驱动或者音频设置有关,KDE... 阅读全文
2014年5月30日
摘要:
由于Android是基于Linux内核的操作系统。因此,在Android上可以执行Shell命令。 chenbjin@acer:~$adb shell shell@android:/ $ su 拿到root权限 ls 查看文件夹 cd 改变目录 cat <文件名> 查看文件 rm 删除文件 mkdi 阅读全文
2014年5月29日
摘要:
1.adb简述: adb全称Android Debug Bridge,安卓调试桥接器。它是Android sdk里的一个工具,用这个工具可以直接操作管理android模拟器或者真实的andriod设备。 adb也是一个客户端-服务器端程序,其中客户端是你用来操作的电脑,服务器端是你的androi... 阅读全文
2014年5月20日
摘要:
相信很多朋友都曾在windows上做过web开发,我们常用的Web应用程序平台是:Apache+Mysql+Perl/PHP/Python,在windows下集成称为WAMP。web开发新手有时候由于不太熟悉linux下的操作,总希望能在windows上做开发,wamp便是利器。 有了集成的we... 阅读全文