数据量超大的实时查询,怎样设计方案( 二 )


■网友
【数据量超大的实时查询,怎样设计方案】 spark streaming实时聚合扔到mysql or clickhouse里,搞定。

■网友
哪个行业?结构化的短数据这种场景推荐列式数据库,现在的数据量到了多少TB了?预算充足的话,可以考虑一下电力行业里用的实时数据库,电厂做sis系统的一般几万测点起,每秒写入。现在风电集控的动辄几十万几百万点,也是秒级写入,查询场景和你很相似。这些后台不是tsdb等开源数据库支持的,可以查一下国外OSI的PI(实时库里的oracle),性价比的话国内也有几个商业实时库做的还不错。ps,利益相关
■网友
作为ES粉,必然推荐使用ES。更合适的说,ES是一款搜索引擎,在海量数据规模下,查询效率相比于数据库更为优越。分布式以及实时搜索的特性都满足题主要求。
■网友
楼主考察一下糖果云,www.tgyun.cc, 查询100G的数据的3-4字符的任意关键词,首次查询低于100毫秒(时间消耗在磁盘),再次查询(非缓存),低于1毫秒。我们做过一个测试,同样的4G数据,按字分词,糖果云搜索是ElasticSearch的100倍,首次查询,ElasticSearch用时3-4秒,糖果云用时30毫秒,后续查询,ElasticSearch用时还是3-4秒,糖果云用时低于1毫秒,非缓存。
■网友
数据量太小,随便整整吧


推荐阅读