python一些包的说明文档/教程链接
伯乐在线Python资源板块:http://hao.jobbole.com/?catid=144。有介绍了150多种python包,你想要的几乎都可以在里面找到.
1.numpy
科学计算
来自《用Python做科学计算》http://sebug.net/paper/books/scipydoc/numpy_intro.html(中文版)
来自图灵社区:http://www.ituring.com.cn/minibook/804(中文版)
来自sciPy:http://wiki.scipy.org/Tentative_NumPy_Tutorial(英文版)
2.pandas
用于科学计算
官网:http://pandas.pydata.org/pandas-docs/stable/index.html
10分钟搞定pandas(来自官网):
pandas基础(博友的博客):http://my.oschina.net/lionets/blog/277847 (中文版)
pandas数据规整(博友博客):http://my.oschina.net/lionets/blog/279785(中文版)
3.sklearn
用于机器学习的包
这个就不用说了,官网资料最全:http://scikit-learn.org/stable/ 。大大小小的机器学习包以及降维、特征抽取、计算得分、模型选择、集成分类器等一大堆的好资料,可通过目录来找:http://scikit-learn.org/0.15/user_guide.html,http://scikit-learn.org/stable/modules/classes.html#module-sklearn.linear_model
4.xml
读取xml文件可有多种方式,python自带的xml,lxml,beautifulsoup(注重html解析)
来自python标准库:https://docs.python.org/2/library/markup.html
python读取xml文件(博友博客):http://www.cnblogs.com/fnng/p/3581433.html
lxml官网:http://lxml.de/
W3CSCHOOL.CC:http://www.w3cschool.cc/python/python-xml.html
5.networkx
用于社交网络,里面定义的很多图模型,几乎很多东西都可以化为图模型,这个包比较有用。前提是善于将目前的问题化为图模型,再用这神器。
github:http://networkx.github.io/documentation/latest/examples/index.html
6.ctype
用于调用和C库链接。
7.nltk
《python自然语言处理》:http://download.csdn.net/download/daogepiqian/8528615
我爱自然语言处理:http://www.52nlp.cn/python自然语言处理实践-在nltk中使用斯坦福中文分词器
8.matplotlib
python画图:官网http://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.plot
9.gensim
自然语言处理之主题模型:
官网:http://radimrehurek.com/gensim/index.html
来自我爱自然语言处理:http://www.52nlp.cn/如何计算两个文档的相似度二
10.sympy
Python的数学符号计算库:官网http://www.sympy.org/en/index.html
用python做科学计算:http://sebug.net/paper/books/scipydoc/sympy_intro.html
11.pyspark
属于python的Spark
官网:http://spark.apache.org/docs/0.9.0/python-programming-guide.html
文档:http://spark.apache.org/docs/0.9.0/api/pyspark/index.html
#------------------------------------------------------------------------------
工具篇:
T0.开发工具
anaconda:
集成了python相当多的包,几乎大部分都可以在这里找得到,numpy, scipy, sklearn, pandas, nltk等等,但似乎没有gensim这个做LDA的包,要自己下载。https://store.continuum.io/cshop/anaconda/
canopy
没怎么用过,也贴上来:https://www.enthought.com/products/canopy/
annaconda和canopy两个工具的介绍(博友博客):http://www.cnblogs.com/sdlypyzq/p/3909107.html
T1.crfsuite
CRF工具之一crfsuite,比crf++效果还好的工具,里面以组块分析为例子:http://www.chokkan.org/software/crfsuite/tutorial.html,http://www.chokkan.org/software/crfsuite/manual.html
crfsuite在ubuntu下的一些配置:http://blog.sina.com.cn/s/blog_e8c03f9f0102v5py.html
CRF++,官网:http://taku910.github.io/crfpp/,0.58版本下载(有的时候在官网下载不下来,又有的时候版本):http://pan.baidu.com/s/1c0nj7iw
#------------------------------------------------------------------------------
功能篇:
F0.自然语言处理
nltk
polyglot:支持上百种语言的断词、语种检测、命名实体识别、词性标注、情感分析、词嵌入、形态分析等。
文档:http://polyglot.readthedocs.org/en/latest/
github:https://github.com/aboSamoor/polyglot
F1.机器学习
伯乐头条文章介绍:http://python.jobbole.com/81135/
sklearn, nltk
svmlight: 可以解决分类回归排序等多种问题,用SVMs解决机器学习问题。
libsvm: 既然谈到svmlight,那也要谈下libsvm, 同是用SVMs实现的,用来解决机器学习问题的工具。
libsvm官网:http://www.csie.ntu.edu.tw/~cjlin/libsvm/
python anaconda有集成libsvm包,在sklearn包里面的svm包里。
>>>from sklearn.svm import libsvm #可破
#==========================================
scikit-learn
包括分类、回归、聚类系列算法,主要算法有SVM、逻辑回归、朴素贝叶斯、Kmeans、DBSCAN等
NLTK
提供超过50个语料库和词典资源,文本处理库包括分类、分词、词干提取、解析、语义推理。
Mlpy
回归
leastsquares, ridgeregression, leastangle regression, elastic net, kernel ridge regression, supportvector machines (SVM), partialleast squares (PLS)
分类
linear discriminant analysis (LDA), Basic perceptron, Elastic Net, logistic regression, (Kernel) Support VectorMachines (SVM), Diagonal Linear Discriminant Analysis (DLDA), Golub Classifier,Parzen-based, (kernel) Fisher Discriminant Classifier, k-nearest neighbor,Iterative RELIEF, Classification Tree, Maximum Likelihood Classifier
聚类
hierarchical clustering, Memory-saving HierarchicalClustering, k-means
维度约减
FDA,SRDA,PCA。
Shogun
feature表示,feature预处理, 核函数表示,核函数标准化,距离表示,分类器表示,聚类方法,分布,性能评价方法,回归方法,结构化输出学习器。
MDP
PyBrain
包括神经网络、强化学习(及二者结合)、无监督学习、进化算法。
BigML
PyML
Milk主要提供特征选择、模型选择、组合分类器、分类评估等功能。
其重点是提供监督分类法与几种有效的分类分析:SVMs(基于libsvm),K-NN,随机森林经济和决策树。它还可以进行特征选择。
PyMVPA
分类、回归、特征选择、数据导入导出、可视化等。
Pattern
Python的web挖掘模块,它绑定了 Google、Twitter 、WikipediaAPI,提供网络爬虫、HTML解析功能,文本分析包括浅层规则解析、WordNet接口、句法与语义分析、TF-IDF、LSA等,还提供聚类、分类和图网络可视化的功能。
pyrallel
基于分布式计算模式的机器学习和半交互式的试验项目,可在小型集群上运行。
Monte
可以迅速构建神经网络、条件随机场、逻辑回归等模型,使用inline-C优化,极易使用和扩展。
Orange
一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,绑定了 Python以进行脚本开发。它包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能。其由C++ 和 Python开发,它的图形库是由跨平台的Qt框架开发。
Theano
用来定义、优化和模拟数学表达式计算,用于高效的解决多维数组的计算问题。
Pylearn2
可以处理向量、图像、视频等数据,提供MLP、RBM、SDA等深度学习模型。
NuPIC
一个以HTM学习算法为工具的机器智能平台。HTM是皮层的精确计算方法。HTM的核心是基于时间的持续学习算法和储存和撤销的时空模式。NuPIC适合于各种各样的问题,尤其是检测异常和预测的流数据来源。
Nilearn
Fuel一个能够快速统计学习神经影像数据的Python模块。它利用Python语言中的scikit-learn 工具箱和一些进行预测建模,分类,解码,连通性分析的应用程序来进行多元的统计。
有一个共享如MNIST, CIFAR-10 (图片数据集), Google’s One Billion Words (文字)这类数据集的接口。你使用他来通过很多种的方式来替代自己的数据。
Bob
一个免费的信号处理和机器学习的工具。它的工具箱是用Python和C++语言共同编写的,它的设计目的是变得更加高效并且减少开发时间,它是由处理图像工具,音频和视频处理、机器学习和模式识别的大量软件包构成的。
Skdata
机器学习和统计的数据集的库程序。这个模块对于玩具问题,流行的计算机视觉和自然语言的数据集提供标准的Python语言的使用。
IEPY
一个专注于关系抽取的开源性信息抽取工具。它主要针对的是需要对大型数据集进行信息提取的用户和想要尝试新的算法的科学家。
Quepy
通过改变自然语言问题从而在数据库查询语言中进行查询的一个Python框架。他可以简单的被定义为在自然语言和数据库查询中不同类型的问题。所以,你不用编码就可以建立你自己的一个用自然语言进入你的数据库的系统。
Hebel
通过PyCUDA来进行GPU和CUDA的加速。它是最重要的神经网络模型的类型的工具而且能提供一些不同的活动函数的激活功能,例如动力,涅斯捷罗夫动力,信号丢失和停止法。
mlxtend
由有用的工具和日常数据科学任务的扩展组成的一个库程序。
nolearn
包容纳了大量能对你完成机器学习任务有帮助的实用程序模块。其中大量的模块和scikit-learn一起工作,其它的通常更有用。
Ramp
一个在Python语言下制定机器学习中加快原型设计的解决方案的库程序。他是一个轻型的pandas-based机器学习中可插入的框架,它现存的Python语言下的机器学习和统计工具(比如scikit-learn,rpy2等)Ramp提供了一个简单的声明性语法探索功能从而能够快速有效地实施算法和转换。
Feature Forge
提供了一组工具,它会让你在许多机器学习程序使用中很受用。当你使用scikit-learn这个工具时,你会感觉到受到了很大的帮助。(虽然这只能在你有不同的算法时起作用。)
REP
有一个统一的分类器包装来提供各种各样的操作,例如TMVA, Sklearn, XGBoost, uBoost等等。并且它可以在一个群体以平行的方式训练分类器。同时它也提供了一个交互式的情节。
Python学习机器样品
用亚马逊的机器学习建造的简单软件收集。www.github.com/awslabs/machine-learning-samples。
python-ELM
在Python语言下基于scikit-learn的极端学习机器的实现。www.github.com/dclambert/Python-ELM。
这部分主要参考两个网站:
#==========================================
F2.系统相关
os:与操作系统有关的python包,比如说系统路径、文件分隔符等等os.path、os.sep,比较常用。
来自51CTO.com:http://developer.51cto.com/art/201003/186045.htm
sys:sys.getdefaultencoding()常用
F3.零散基础
random, time
F4:推荐系统
carb:官网:http://muricoca.github.io/crab/tutorial.html
recsys(实现了SVD、Neighborhood SVD推荐算法):github:https://github.com/ocelma/python-recsys
#------------------------------------------------------------------------------
在遇到的过程中,待不断增加。博友若是看到好的文档,也欢迎推荐。
当然,可能有各种原因导致链接失效,导致无法看到相关文档,不必担心,过段时间会好些。