导航菜单

大数据分析概述

大数据定义

大数据是指规模巨大、类型多样、增长快速的数据集合,具有4V特征:体量大(Volume)、类型多(Variety)、速度快(Velocity)、价值密度低(Value)。

发展历程

  • • 2005年Hadoop开源,推动大数据技术发展
  • • 2010年Spark、Flink等新一代平台兴起
  • • 2020年云原生大数据、AI融合趋势明显

应用场景

  • • 智能推荐与广告
  • • 金融风控与反欺诈
  • • 智慧医疗与城市

大数据Hello World(PySpark)

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('demo').getOrCreate()
df = spark.read.json('data.json')
df.show()