导航菜单

分类导航

大数据平台与生态

主流大数据平台

• Hadoop：分布式存储与批处理
• Spark：内存计算、批流一体
• Flink：高性能流式处理

生态组件简介

• Hive：数据仓库
• HBase：NoSQL数据库
• Zookeeper：分布式协调
• Kafka：消息队列

Spark作业示例

from pyspark import SparkContext
sc = SparkContext()
rdd = sc.textFile('data.txt')
print(rdd.count())

← 概述数据采集与预处理 →