文章插图
Apache Superset https://github.com/apache/supersetApache Superset是一个现代的、轻量级可视化BI分析工具 。Apache Superset在可视化、易用性和交互性上非常有特色,用户可以轻松对数据进行可视化分析 。而且Apache Superset 已经达到企业级商业软件的水平 。
文章插图
Presto https://prestodb.io/Presto 是一个开源的分布式 SQL 引擎,用于集群中的在线分析处理 。Presto 可以查询各种各样的数据源,从文件到数据库,并将结果输出到BI和分析环境 。更重要的是,Presto 可以在 Hive、Cassandra、关系型数据库中进行查询,而且Presto 还可以结合多个来源的数据查询 。
脸书、Uber、推特和阿里巴巴创立了 Presto 基金会 。其他成员现在包括 Alluxio、Ahana、Upsolver 和英特尔 。
文章插图
Apache Arrow https://arrow.apache.org/Apache Arrow 是一个列式内存分析层,旨在为CPU和GPU上加速大数据的分析 。它包含了一套平面和分层数据的典型内存表示,Arrow 内存格式支持零拷贝读取,并且不必序列化的情况下访问数据极快 。目前Apache Arrow支持的语言包括 C、C++、C#、Go、JAVA、JavaScript、Julia、MATLAB、Python、R、Ruby 和 Rust 。
文章插图
InterpretML https://interpret.ml/InterpretML是微软推出的可解释机器学习包 。其中包含了几个最先进的机器学习可解释性技术 。InterpretML提供了两类解释性类型: 明箱(glassbox) 模型和黑箱(blackbox)模型 。InterpretML 可让实践者通过在一个统一的 API 下,借助内置的可扩展可视化平台,使用多种方法来轻松地比较可解释性算法 。InterpretML 也包含了可解释 Boosting 机(EBM)的首个实现,这是一种强大的可解释明箱模型,可以做到与许多黑箱模型同等准确 。
文章插图
Lime https://github.com/marcotcr/limeLime(Local interpretable model-agnostic explanations 局部可解释模型-不可知解释的缩写),Lime用于表格或图片的解释机器学习的分类器 。Lime 能够解释两个或更多类的黑盒分类器 。分类器实现了一个函数,该函数接收原始文本或 numpy 数组并输出每个类的概率 。
文章插图
Dask https://dask.org/Dask 是一个用于并行计算的开源库,可将 Python 包扩展到多台机器上 。Dask 可将数据和计算分布在多个 GPU 上,即可在单一系统也可在多节点集群中运行 。Dask 可与 Rapids cuDF、XGBoost 和 Rapids cuML 集成,用于 GPU 加速的数据分析和机器学习 。Dask还可与 NumPy、Pandas 和 Scikit-learn 集成进行并行化工作 。
文章插图
BlazingSQL https://blazingsql.com/BlazingSQL 是一个基于 Rapids 生态系统构建的 GPU 加速 SQL 引擎 。BlazingSQL基于 Apache 2.0 许可证开源 。BlazingSQL是cuDF的SQL接口,具有支持大规模数据科学工作流(包括提取,转换,加载)和企业数据集的各种功能 。
文章插图
Rapids https://rapids.ai/Nvidia 的 Rapids是由英伟达开源的一款开源机器学习GPU加速平台 。Rapids 使用英伟达 CUDA 基元进行底层计算优化,通过Python 将 GPU 的并行和高带宽内存以接口方式向外开放 。Rapids 依赖于 Apache Arrow 柱状内存格式,包括cuDF(类似 Pandas 的 DataFrame 库);cuML(机器学习库集合,提供 Scikit-learn 中大多数算法的 GPU 版本);以及cuGraph(类似 NetworkX 的加速图分析库) 。
文章插图
PostHog https://posthog.com/PostHog 是一个为开发者构建的开源产品分析平台 。自动收集网站或应用程序上的每个事件,无需向第三方发送数据 。PostHog 提供基于用户事件的分析,捕获网站的使用数据,统计各用户在网站中的具体操作 。PostHog会自动捕获点击次数和综合浏览量,以分析网站用户在做什么,而无需手动推送事件 。
文章插图
LakeFS https://lakefs.io/LakeFS 提供了一种"像管理代码一样管理数据湖"的方式,独特引入类似Git功能来管理数据的版本 。LakeFS 可以帮助用户创建独立、零拷贝(Zero-copy)的数据分支,且在运行、测试和建模分析中,又不存在破坏共享对象的风险 。与Git类似,LakeFS 的数据中会带有提交记录、元数据字段和回滚等信息,此外还有hooks,即在分支合并到主分支前,hooks会检查数据,确保完整性和质量 。Amazon S3 和 Azure Blob已在使用 LakeFS 。
推荐阅读
- 2021年国庆节高速什么时间免费?
- 全世界票房最高的导演是谁?
- 女人泡脚去湿气的最佳时间,艾草泡脚注意事项
- 实测 WordPress 最佳优化方案:WP Super Cache+Memcached+CDN
- 华为架构师整理Redis数据结构的大厂最佳实践
- 10种祛斑的简单最佳方法,祛斑效果最好的方法
- 2022年赚钱商机?2020赚钱风口
- 2021年做自媒体的出路在哪里?
- 2022年虎宝宝取名宜用什么字?2020年虎宝宝取名字最佳字
- 2021年的母亲节?迎接2021年的征文