大数据分析概述
大数据定义
大数据是指规模巨大、类型多样、增长快速的数据集合,具有4V特征:体量大(Volume)、类型多(Variety)、速度快(Velocity)、价值密度低(Value)。
发展历程
- • 2005年Hadoop开源,推动大数据技术发展
- • 2010年Spark、Flink等新一代平台兴起
- • 2020年云原生大数据、AI融合趋势明显
应用场景
- • 智能推荐与广告
- • 金融风控与反欺诈
- • 智慧医疗与城市
大数据Hello World(PySpark)
from pyspark.sql import SparkSession spark = SparkSession.builder.appName('demo').getOrCreate() df = spark.read.json('data.json') df.show()