分布式计算平台和分布式消息队列的区别和优缺点
从题主的问题来看,我会毫不犹豫的选方案1。技术角度来看,要求实时的话,Hadoop不适合。Spark Streaming也有1秒的延迟,应该也不适合。Storm差不多,不过杀鸡用牛刀了,很明显这数据量太少,还不值得维护一个Storm花费的精力。队列方案本来就是干这个用的,我觉得用队列就好了。当然考虑到横向扩展性,用Kafka也许更好,不过要注意,Kafka可以保证消息的送达,但无法保证消息只会送达1次,所以在队列出口处理消息的程序一定要是幂等的(也就是即使重复处理了消息,也不会影响结果)。所以为什么不用RabbitMQ - Messaging that just works呢,gearman多小众啊。以上!
■网友
如果不想自己运维可以找一些成熟的产品直接写SQL处理就好了,比如华为的流计算和阿里云的流计算;下面就是这两个产品的底层实现
对于Flink我比较熟,应该是第四代的数据引擎!他包括了流式处理和批量的离线处理!而Spark和他的不同之处是在于默认把所有的计算都认为是批量计算而流式处理算是批量计算的一个特例!Flink 真好与他相反!flink真正意义做到了数据的实时处理!
hi 大家对于flink应该是很熟悉了,有人说过flink应该是第四代大数据平台引擎,从大家熟悉的Hoodap、Storm、Spark来慢慢的逐步演化而来的新的大数据引擎。
仅批处理框架:
Apache Hadoop
仅流处理框架:
Apache Storm
Apache Samza
混合框架:
Apache Spark
Apache Flink
Flink的不光有离线计算还增加了实时计算。他和Spark最大的区别是他会把所有的数据计算全部当为实时计算,而批量的离线计算只是一种特殊的实时计算。Spark正好相反。Spark是将一切处理都认为是批处理,将流处理看成是批处理的一个特例。Spark的流处理并不是真正的流处理,他是一种微型批处理,因此Spark的流处理的实效性不是很高。Spark Streaming 定位是准实时流处理引擎。而Flink是真正的流处理系统,他的实效性要比Spark高出很多,他对标的是Storm和heron,他是一个真正的大数据实时分析系统。
功能
Flink的核心是一个分布式基于流的数据处理引擎,他的核心竞争力有一下几点,高吞吐、低延时、事件窗口。
Flink的data stream API在流处理的业务场景下,支持多种数据转换,支持用户自定义状态来操作,支持灵活的窗口操作。
Flink的 data set API支持java和scale开发语言、支持编写类型安全的程序、编写的程序易于维护、支持17种丰富的数据类型、支持键值对数据类型、支持丰富的算子。
Flink的deploy分为三种,本地部署在本地启动基于单个jvm的flink的实例。集群部署在集群中可以单独部署成standalone模式,也可以采用hoodap的yarn进行部署成yarn模式。云部署兼容Google的云服务GCE(Google compute Engine)也兼容amazon的云服务AWS(amazon web service)
Flink liberales, flink的table 主要的作用于处理关系性结构化数据,对结构化数据进行查询操作,将结构化数据抽象成关系表,并通过类SQL的dsl对关系表进行各种查询操作。提供SQl on bigdata的功能。flink table 既可以在流处理使用SQL也可以在批处理中使用SQL.对用Spark SQL.
■网友
两台服务器的小集群=\u0026gt; 直接写个小程序跑就好了。
■网友
题主最终选型使用的什么?我也正在调研gearman,感觉还挺方便的。
■网友
【分布式计算平台和分布式消息队列的区别和优缺点】 这个场景更适合 MQ,2 台机器作为 Consumer,还可以横向扩展,加机器即可。
■网友
你要干什么事呢?是IO型,还是计算型?spark也可以达到近乎实时的标准(如:SparkSQL)另外,如果你就2台机器,是不是自己搞消息队列+多线程就行了?
推荐阅读
- 江西省食品安全溯源平台上线揭开食品的“来龙去脉”
- #医保云#备案报销手机搞定 看病买药“一码通行” 江苏医保云平台上线试运行
- 市行政■盐城不动产交易一体化平台跑出全省最快加速度
- 联合国大数据全球平台中国区域中心在杭州成立
- “艺术无障碍平台”正式启动
- 汽车|马自达全新CX-5曝光!搭直列六缸引擎/后驱平台
- 大丰|盐城大丰开通智慧养老服务平台 已完成17万次上门服务
- 汽车知识|大变化!下一代马自达CX-5将搭载直列六缸+后驱平台
- |淮阴水政充分利用“双随机”平台 促进执法公平公正
- 有啥方法,网站,项目可以自己练习计算广告学
