大数据平台与生态
主流大数据平台
- • Hadoop:分布式存储与批处理
- • Spark:内存计算、批流一体
- • Flink:高性能流式处理
生态组件简介
- • Hive:数据仓库
- • HBase:NoSQL数据库
- • Zookeeper:分布式协调
- • Kafka:消息队列
Spark作业示例
from pyspark import SparkContext sc = SparkContext() rdd = sc.textFile('data.txt') print(rdd.count())
from pyspark import SparkContext sc = SparkContext() rdd = sc.textFile('data.txt') print(rdd.count())