史上最全的“大数据”学习资源（上）(3)

发布时间：2021-01-06 23:24 所属栏目：53 来源：网络整理

导读：NewSQL 数据库 ?? Actian Ingres ：由商业支持,开源的SQL关系数据库管理系统； ?? Amazon RedShift ：基于PostgreSQL的数据仓库服务； ?? BayesDB ：面向统计数值的SQL数据库； ?? CitusDB ：通过分区和复制横向扩

NewSQL数据库

??Actian Ingres：由商业支持,开源的SQL关系数据库管理系统；
??Amazon RedShift：基于PostgreSQL的数据仓库服务；
??BayesDB：面向统计数值的SQL数据库；
??CitusDB：通过分区和复制横向扩展PostgreSQL；
??Cockroach：可扩展、地址可复制、交易型的数据库；
??Datomic：旨在产生可扩展、灵活的智能应用的分布式数据库；
??FoundationDB：由F1授意的分布式数据库；
??Google F1：建立在Spanner上的分布式SQL数据库；
??Google Spanner：全球性的分布式半关系型数据库；
??H-Store：是一个实验性主存并行数据库管理系统,用于联机事务处理(OLTP)应用的优化；
??Haeinsa：基于Percolator,HBase的线性可扩展多行多表交易库；
??HandlerSocket：MySQL/MariaDB的NoSQL插件；
??InfiniSQL：无限可扩展的RDBMS；
??MemSQL：内存中的SQL数据库,其中有优化的闪存列存储；
??NuoDB：SQL / ACID兼容的分布式数据库；
??Oracle TimesTen in-Memory Database：内存中具有持久性和可恢复性的关系型数据库管理系统；
??Pivotal GemFire XD：内存中低延时的分布式SQL数据存储,可为内存列表数据提供SQL接口,在HDFS中较持久化；
??SAP HANA：是在内存中面向列的关系型数据库管理系统；
??SenseiDB：分布式实时半结构化的数据库；
??Sky：用于行为数据的灵活、高性能分析的数据库；
??SymmetricDS：用于文件和数据库同步的开源软件；
??Map-D：为GPU内存数据库,也为大数据分析和可视化平台；
??TiDB：TiDB是分布式SQL数据库,基于谷歌F1的设计灵感；
??VoltDB：自称为最快的内存数据库.

列式数据库

注意：请在键-值数据模型?阅读相关注释.

??Columnar Storage：解释什么是列存储以及何时会需要用到它；
??Actian Vector：面向列的分析型数据库；
??C-Store：面向列的DBMS；
??MonetDB：列存储数据库；
??Parquet：Hadoop的列存储格式；
??Pivotal Greenplum：专门设计的、专用的分析数据仓库,类似于传统的基于行的工具,提供了一个列式工具；
??Vertica：用来管理大规模、快速增长的大量数据,当用于数据仓库时,能够提供非常快的查询性能；
??Google BigQuery?：谷歌的云产品,由其在Dremel的创始工作提供支持；
??Amazon Redshift?：亚马逊的云产品,它也是基于柱状数据存储后端.

时间序列数据库

??Cube：使用MongoDB来存储时间序列数据；
??Axibase Time Series Database：在HBase之上的分布式时间序列数据库,它包括内置的Rule Engine、数据预测和可视化；
??Heroic：基于Cassandra和Elasticsearch的可扩展的时间序列数据库；
??InfluxDB：分布式时间序列数据库；
??Kairosdb：类似于OpenTSDB但会考虑到Cassandra；
??OpenTSDB：在HBase上的分布式时间序列数据库；
??Prometheus：一种时间序列数据库和服务监测系统；
??Newts：一种基于Apache Cassandra的时间序列数据库.

类SQL处理

??Actian SQL for Hadoop：高性能交互式的SQL,可访问所有的Hadoop数据；
??Apache Drill：由Dremel授意的交互式分析框架；
??Apache HCatalog：Hadoop的表格和存储管理层；
??Apache Hive：Hadoop的类SQL数据仓库系统；
??Apache Optiq：一种框架,可允许高效的查询翻译,其中包括异构性及联合性数据的查询；
??Apache Phoenix：Apache Phoenix 是 HBase 的 SQL 驱动；
??Cloudera Impala：由Dremel授意的交互式分析框架；
??Concurrent Lingual：Cascading中的类SQL查询语言；
??Datasalt Splout SQL：用于大数据集的完整的SQL查询工具；
??Facebook PrestoDB：分布式SQL查询工具；
??Google BigQuery：交互式分析框架,Dremel的实现；
??Pivotal HAWQ：Hadoop的类SQL的数据仓库系统；
??RainstorDB：用于存储大规模PB级结构化和半结构化数据的数据库；
??Spark Catalyst：用于Spark和Shark的查询优化框架；
??SparkSQL：使用Spark操作结构化数据；
??Splice Machine：一个全功能的Hadoop上的SQL?RDBMS,并带有ACID事务；
??Stinger：用于Hive的交互式查询；
??Tajo：Hadoop的分布式数据仓库系统；
??Trafodion：为企业级的SQL-on-HBase针对大数据的事务或业务工作负载的解决方案.

数据摄取

??Amazon Kinesis：大规模数据流的实时处理；
??Apache Chukwa：数据采集系统；
??Apache Flume：管理大量日志数据的服务；
??Apache Kafka：分布式发布-订阅消息系统；
??Apache Sqoop：在Hadoop和结构化的数据存储区之间传送数据的工具；
??Cloudera Morphlines：帮助 Solr、HBase和HDFS完成ETL的框架；
??Facebook Scribe：流日志数据聚合器；
??Fluentd：采集事件和日志的工具；
??Google Photon：实时连接多个数据流的分布式计算机系统,具有高可扩展性和低延迟性；
??Heka：开源流处理软件系统；
??HIHO：用Hadoop连接不同数据源的框架；
??Kestrel：分布式消息队列系统；
??LinkedIn Databus：对数据库更改捕获的事件流；
??LinkedIn Kamikaze：压缩已分类整型数组的程序包；
??LinkedIn White Elephant：日志聚合器和仪表板；
??Logstash：用于管理事件和日志的工具；
??Netflix Suro：像基于Chukwa 的Storm和Samza一样的日志聚合器；
??Pinterest Secor：是实现Kafka日志持久性的服务；
??Linkedin Gobblin：LinkedIn的通用数据摄取框架；
??Skizze：是一种数据存储略图,使用概率性数据结构来处理计数、略图等相关的问题；
??StreamSets Data Collector：连续大数据采集的基础设施,可简单地使用IDE.

（编辑：ASP站长网）