IT技术题库
其他题库
Hadoop
题库介绍
Hadoop 是 Apache 开源的分布式存储与计算框架,核心由 HDFS(高容错分布式文件系统)与 YARN(资源调度平台)构成,配合 MapReduce 编程模型,可在廉价 x86 集群上实现 PB 级数据的高可靠存储与并行处理;生态涵盖 Hive、Spark、HBase、Flink 等组件,支撑离线批处理、实时流计算、OLAP、AI 训练等场景,是大数据架构的基石。
基本信息
题目数
300
更新时间
2025-09-17
问题目录
离线数仓—ODS 层 HDFS 原始数据采集
实时数仓—Kafka→HDFS→Hive 流式链路
YARN 资源调度—多租户隔离与弹性伸缩
MapReduce 性能调优—千亿级数据排序
HDFS 纠删码—冷数据降本
多机房容灾—NameNode 高可用与跨集群复制
安全合规—Kerberos+Ranger+TDE
对象存储融合—HDFS 协议网关
实时流计算—Flink on YARN 与 HDFS 检查点
即席查询—Presto/Trino on HDFS
数据湖—Iceberg on HDFS
机器学习—HDFS 作为 AI 训练数据湖
边缘计算—HDFS 轻量版(Ozone/HDDS)
容器化—HDFS on K8s 运维
性能基准—TPC-DS 与 TPCx-HS
自动化运维—Ansible+Python 脚本
数据治理—Apache Atlas+Hive Lineage
混合云—数据分层与智能搬迁
硬件选型—国产化 ARM+x86 混合
未来趋势—Serverless 与 AI4Ops