导航菜单

大数据平台与生态

主流大数据平台

  • • Hadoop:分布式存储与批处理
  • • Spark:内存计算、批流一体
  • • Flink:高性能流式处理

生态组件简介

  • • Hive:数据仓库
  • • HBase:NoSQL数据库
  • • Zookeeper:分布式协调
  • • Kafka:消息队列

Spark作业示例

from pyspark import SparkContext
sc = SparkContext()
rdd = sc.textFile('data.txt')
print(rdd.count())