史上最全的“大数据”学习资源（下）

发布时间：2021-01-06 23:27 所属栏目：53 来源：网络整理

导读：《史上最全的“大数据”学习资源（下）》要点：本文介绍了史上最全的“大数据”学习资源（下），希望对您有用。如果有疑问，可以联系我们。服务编程 ?? Akka Toolkit ：JVM中分布性、容错事件驱动应用程序的运行时间； ?? Apache Avro ：数据序列化系统；

《史上最全的“大数据”学习资源（下）》要点：
本文介绍了史上最全的“大数据”学习资源（下），希望对您有用。如果有疑问，可以联系我们。

服务编程

??Akka Toolkit：JVM中分布性、容错事件驱动应用程序的运行时间；
??Apache Avro：数据序列化系统；
??Apache Curator：Apache ZooKeeper的Java库；
??Apache Karaf：在任何OSGi框架之上运行的OSGi运行时间；
??Apache Thrift：构建二进制协议的框架；
??Apache Zookeeper：流程管理集中式服务；
??Google Chubby：一种松耦合分布式系统锁服务；
??Linkedin Norbert：集群管理器；
??OpenMPI：消息传递框架；
??Serf：服务发现和协调的分散化解决方案；
??Spotify Luigi：一种构建批处理作业的复杂管道的Python包,它能够处理依赖性解析、工作流管理、可视化、故障处理、命令行一体化等等问题；
??Spring XD：数据摄取、实时分析、批量处理和数据导出的分布式、可扩展系统；
??Twitter Elephant Bird：LZO压缩数据的工作库；
??Twitter Finagle：JVM的异步网络堆栈.

调度

??Apache Aurora：在Apache Mesos之上运行的服务调度程序；
??Apache Falcon：数据管理框架；
??Apache Oozie：工作流作业调度程序；
??Chronos：分布式容错调度；
??Linkedin Azkaban：批处理工作流作业调度；
??Schedoscope：Hadoop作业敏捷调度的Scala DSL；
??Sparrow：调度平台；
??Airflow：一个以编程方式编写、调度和监控工作流的平台.

机器学习

??Apache Mahout：Hadoop的机器学习库；
??brain：JavaScript中的神经网络；
??Cloudera Oryx：实时大规模机器学习；
??Concurrent Pattern：Cascading的机器学习库；
??convnetjs：Javascript中的机器学习,在浏览器中训练卷积神经网络(或普通网络)；
??Decider：Ruby中灵活、可扩展的机器学习；
??ENCOG：支持多种先进算法的机器学习框架,同时支持类的标准化和处理数据；
??etcML：机器学习文本分类；
??Etsy Conjecture：Scalding中可扩展的机器学习；
??Google Sibyl：Google中的大规模机器学习系统；
??GraphLab Create：Python的机器学习平台,包括ML工具包、数据工程和部署工具的广泛集合；
??H2O：Hadoop统计性的机器学习和数学运行时间；
??MLbase：用于BDAS堆栈的分布式机器学习库；
??MLPNeuralNet：针对iOS和Mac OS X的快速多层感知神经网络库；
??MonkeyLearn：使文本挖掘更为容易,从文本中提取分类数据；
??nupic：智能计算的Numenta平台,它是一个启发大脑的机器智力平台,基于皮质学习算法的精准的生物神经网络；
??PredictionIO：建于Hadoop、Mahout和Cascading上的机器学习服务器；
??SAMOA：分布式流媒体机器学习框架；
??scikit-learn：scikit-learn为Python中的机器学习；
??Spark MLlib：Spark中一些常用的机器学习(ML)功能的实现；
??Vowpal Wabbit：微软和雅虎发起的学习系统；
??WEKA：机器学习软件套件；
??BidMach：CPU和加速GPU的机器学习库.

基准测试

??Apache Hadoop Benchmarking：测试Hadoop性能的微基准；
??Berkeley SWIM Benchmark：现实大数据工作负载基准测试；
??Intel HiBench：Hadoop基准测试套件；
??PUMA Benchmarking：MapReduce应用的基准测试套件；
??Yahoo Gridmix3：雅虎工程师团队的Hadoop集群基准测试.

安全性

??Apache Knox Gateway：Hadoop集群安全访问的单点；
??Apache Sentry：存储在Hadoop的数据安全模块.

系统部署

??Apache Ambari：Hadoop管理的运作框架；
??Apache Bigtop：Hadoop生态系统的部署框架；
??Apache Helix：集群管理框架；
??Apache Mesos：集群管理器；
??Apache Slider：一种YARN应用,用来部署YARN中现有的分布式应用程序；
??Apache Whirr：运行云服务的库集；
??Apache YARN：集群管理器；
??Brooklyn：用于简化应用程序部署和管理的库；
??Buildoop：基于Groovy语言,和Apache BigTop类似；
??Cloudera HUE：和Hadoop进行交互的Web应用程序；
??Facebook Prism：多数据中心复制系统；
??Google Borg：作业调度和监控系统；
??Google Omega：作业调度和监控系统；
??Hortonworks HOYA：可在YARN上部署HBase集群的应用；
??Marathon：用于长期运行服务的Mesos框架.

应用程序

??Adobe spindle：使用Scala、Spark和Parquet处理的下一代web分析；
??Apache Kiji：基于HBase,实时采集和分析数据的框架；
??Apache Nutch：开源网络爬虫；
??Apache OODT：用于NASA科学档案中数据的捕获、处理和共享；
??Apache Tika：内容分析工具包；
??Argus：时间序列监测和报警平台；
??Countly：基于Node.js和MongoDB,开源的手机和网络分析平台；
??Domino：运行、规划、共享和部署模型——没有任何基础设施；
??Eclipse BIRT：基于Eclipse的报告系统；
??Eventhub：开源的事件分析平台；
??Hermes：建于Kafka上的异步消息代理；
??HIPI Library：在Hadoop’s MapReduce上执行图像处理任务的API；
??Hunk：Hadoop的Splunk分析；
??Imhotep：大规模分析平台；
??MADlib：RDBMS的用于数据分析的数据处理库；
??Kylin：来自eBay的开源分布式分析工具；
??PivotalR：Pivotal HD / HAWQ和PostgreSQL中的R；
??Qubole：为自动缩放Hadoop集群,内置的数据连接器；
??Sense：用于数据科学和大数据分析的云平台；
??SnappyData：用于实时运营分析的分布式内存数据存储,提供建立在Spark单一集成集群中的数据流分析、OLTP(联机事务处理)和OLAP(联机分析处理)；
??Snowplow：企业级网络和事件分析,由Hadoop、Kinesis、Redshift 和Postgres提供技术支持；
??SparkR：Spark的R前端；
??Splunk：用于机器生成的数据的分析；
??Sumo Logic：基于云的分析仪,用于分析机器生成的数据；
??Talend：用于YARN、Hadoop、HBASE、Hive、HCatalog和Pig的统一开源环境；
??Warp：利用大数据(OS X app)的实例查询工具.

（编辑：ASP站长网）