这几天加班熬夜把所有Python库整理了一遍,非常全面( 四 )


Framworks and libraries for MapReduce.,PySpark,[Spark]的Python API 。dpark,Spark的Python克隆,Python中的MapReduce框架 。
luigi,为批量工作,建立复杂的管道 。
mrjob,运行在[Hadoop],或亚马逊网络服务的,MapReduce工作 。
人工智能与机器学习库名称简介NLTK(natural language toolkit),是python的自然语言处理工具包 。2001年推出,包括了大量的词料库,以及自然语言处理方面的算法实现:分词,词根计算,分类,语义分析等 。
Pattern,数据挖掘模块,包括自然语言处理,机器学习工具,等等 。
textblob,提供API为自然语言处理、分解NLP任务 。基于NLTK和Pattern模块 。
jieba,结巴,中文分词工具 。
snownlp,用于处理中文文本库 。
loso,中文分词函数库 。
genius,中文CRF基础库,条件随机场(conditional random field,简称 CRF),是一种鉴别式机率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列 。
Gensim,一个相当专业的主题模型Python工具包,无论是代码还是文档,可用于如何计算两个文档的相似度LIBSVM,是台湾大学林智仁(Lin Chih-Jen)教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包,他不但提供了编译好的可在windows系列系统的执行文件,还提供了源代码,方便改进、修改以及在其它[操作系统]上应用;该软件对SVM所涉及的参数调节相对比较少,提供了很多的默认参数,利用这些默认参数可以解决很多问题;并提供了交互检验(Cross Validation)的功能 。该软件可以解决C-SVM、ν-SVM、ε-SVR和ν-SVR等问题,包括基于一对一算法的多类模式识别问题 。
scikits.learn,构建在SciPy之上用于机器学习的 Python 模块 。它包括简单而高效的工具,可用于数据挖掘和数据分析 。涵盖分类,回归和聚类算法,例如SVM,逻辑回归,朴素贝叶斯,随机森林,k-means等算法,代码和文档都非常不错,在许多Python项目中都有应用 。例如在我们熟悉的NLTK中,分类器方面就有专门针对scikit-learn的接口,可以调用scikit-learn的分类算法以及训练数据来训练分类器模型 。
PyMC,机器学习采样工具包,scikit-learn似乎是所有人的宠儿,有人认为,PyMC更有魅力 。PyMC主要用来做Bayesian分析 。
Orange,基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能 。侧重数据挖掘,可以用可视化语言或Python进行操作,拥有机器学习组件,还具有生物信息学以及文本挖掘的插件 。
Milk,机器学习工具箱,其重点是提供监督分类法与几种有效的分类分析:SVMs(基于libsvm),K-NN,随机森林经济和决策树 。它还可以进行特征选择 。这些分类可以在许多方面相结合,形成不同的分类系统 。对于无监督学习,它提供K-means和affinity propagation聚类算法 。
PyMVPA(Multivariate Pattern Analysis in Python),是为大数据集提供统计学习分析的Python工具包,它提供了一个灵活可扩展的框架 。它提供的功能有分类、回归、特征选择、数据导入导出、可视化等 。
NuPIC,开源人工智能平台 。该项目由Grok(原名 Numenta)公司开发,其中包括了公司的算法和软件架构 。NuPIC 的运作接近于人脑,“当模式变化的时候,它会忘掉旧模式,记忆新模式” 。如人脑一样,CLA 算法能够适应新的变化 。
Pylearn2,-基于Theano的机器学习库 。
hebel,GPU加速,[深度学习]Python库 。
gensim,机器学习库 。
pybrain,机器学习模块,它的目标是为机器学习任务提供灵活、易应、强大的机器学习算法 。pybrain包括神经网络、强化学习(及二者结合)、无监督学习、进化算法 。以神经网络为核心,所有的训练方法都以神经网络为一个实例Mahout,是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序 。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘 。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中 。
Crab,灵活的,快速的推荐引擎 。
python-recsys,娱乐系统分析,推荐系统 。
vowpal_porpoise,Vowpal Wabbit轻量级Python封装 。
Theano,用来定义、优化和模拟数学表达式计算,用于高效的解决多维数组的计算问题的python软件包 。它使得写深度学习模型更加容易,同时也给出了一些关于在GPU上训练它们的选项 。


推荐阅读