type
status
date
slug
summary
tags
category
icon
password
AI 摘要
😀
这里写文章的前言: 没啥可说的直接开始
 
文档:

HDFS面试题50道

  1. 请解释一下HDFS的基本概念。
  1. 请描述一下HDFS Namespace的组成。
  1. 请解释HDFS如何存放文件的数据。
  1. 如何实现 HDFS 的高可用性?
  1. HDFS 中的 Rack Aware 是什么,有什么作用?
  1. 请阐述一下 HDFS 中的数据完整性校验方法。
  1. HDFS 中默认的 Block Size 是多少?如何修改它?
  1. 在 HDFS 中如何操作文件和目录?
  1. HDFS 如何处理大于 Block 大小的文件?
  1. HDFS Secondary NameNode 的作用是什么?
  1. HDFS FSImage 文件的作用是什么?
  1. HDFS Edit Log 文件有什么作用?
  1. 如何在 HDFS 中实现数据备份和恢复?
  1. HDFS 中的快照是什么,有什么作用?
  1. HDFS 的 Quota 是什么,有什么作用?
  1. 如何通过 Hadoop 的 Web 界面监视 HDFS 状态?
  1. 如何通过 Shell 命令查看 HDFS 状态?
  1. HDFS 中如何实现数据压缩?
  1. 什么是 HDFS Federation,有什么作用?
  1. HDP(Hortonwork Data Platform)中的 HDFS 组件与 Apache Hadoop 中的 HDFS 有什么不同?
  1. Hadoop安装时配置 HDFS 的步骤是什么?
  1. Hadoop 如何管理 HDFS 中的 Block?
  1. Hadoop NameNode Quit,怎么办?
  1. Hadoop DataNode Quit,怎么办?
  1. 如何升级 HDFS?
  1. HDFS 中的 Lease 是什么,有什么作用?
  1. Hadoop Namenode 的 Java Heap Space 值是多少?如何更改它?
  1. 如何处理 HDFS 的块丢失?
  1. HDFS 是向用户提供接口的,怎样将数据写入 和 读取出HDFS 中?
  1. 如何在HDFS上查找文件?
  1. HDFS中如何运行MapReduce任务?
  1. 如何使用distcp命令将数据从一个HDFS集群传输到另一个HDFS集群?
  1. 如何使用fsck命令检查 HDFS 中的文件系统状态?
  1. 如何使用HDFS上的ACLs控制文件或目录的访问权限?
  1. 分布式缓存在Hadoop中的作用是什么?
  1. 如何使用HDFS上的web界面访问集群日志?
  1. HDFS中什么是Splitter,它的作用是什么?
  1. 如何为Hadoop集群配置Hadoop参数?
  1. 在Hadoop中如何配置安全?
  1. HDFS 的文件副本是如何放置的?
  1. 在 HDFS 中如何寻找导致网络阻塞的问题?
  1. HDFS 的路由到底是什么?
  1. HDFS 中的元数据信息是如何保存的?
  1. 如果 HDFS 中的某个节点掉线会发生什么?
  1. HDFS 可以使用 NFS 访问吗?
  1. 如何检查 HDFS 健康状态?
  1. HDFS 的网络拓扑结构是什么?
  1. HDFS 中的 FSImage 数据到达哪里?
  1. MapReduce 可以使用 HDFS 访问吗?
  1. HDFS 如何处理不同大小的文件?

HIVE面试题50道

  1. Hive是什么?它有什么作用?
  1. Hive与Hadoop之间有什么关系?
  1. Hive支持的文件格式有哪些?
  1. Hive的优点是什么?
  1. Hive的缺点是什么?
  1. Hive的元数据存储在哪里?
  1. Hive支持哪些数据类型?
  1. Hive中的分区是什么?
  1. Hive的UDF是什么?有哪些类型?
  1. Hive中的join操作是如何实现的?
  1. Hive中的排序和聚合操作是如何实现的?
  1. Hive中的MapReduce任务是如何执行的?
  1. Hive中的Bucketing是什么?有什么作用?
  1. Hive中的Sampling是什么?有什么作用?
  1. Hive中的Partitions和Buckets有什么区别?哪一个是更好的选择?
  1. Hive中的Index是什么?有什么作用?
  1. Hive的MapReduce任务支持哪些输入格式?
  1. Hive中的MapReduce任务输出格式有哪些?
  1. Hive中的MapReduce任务支持哪些压缩格式?
  1. Hive中的MapReduce任务支持哪些SerDes?
  1. Hive中的MapReduce任务支持哪些执行引擎?
  1. 在Hive中如何控制数据访问权限?
  1. 如何在Hive中优化查询性能?
  1. Hive中的查询优化方式有哪些?
  1. Hive中的数据倾斜如何解决?
  1. Hive中的数据倾斜如何预防?
  1. Hive中的数据倾斜如何处理?
  1. Hive中的分布式查询是如何工作的?
  1. 在Hive中如何处理空值?
  1. Hive中的数据压缩如何实现?
  1. 如何在Hive中读写Parquet文件?
  1. 如何在Hive中读写ORC文件?
  1. Hive中是如何处理多行日志数据的?
  1. Hive中的函数有哪些?
  1. Hive中的自定义函数如何实现?
  1. Hive中的快照查询是什么?
  1. Hive中的动态分区是什么?
  1. Hive中的动态分区与静态分区有什么区别?
  1. Hive中的多列分区是什么?
  1. Hive中的数据类型转换是如何实现的?
  1. Hive中的比较运算符有哪些?
  1. Hive中的逻辑运算符有哪些?
  1. Hive中的Sanity Check是什么?
  1. Hive中的自定义InputFormat如何实现?
  1. Hive中的自定义OutputFormat如何实现?
  1. Hive中的数据库管理如何实现?
  1. Hive中的HQL是什么?
  1. Hive中的JDBC驱动是什么?
  1. Hive中的ODBC驱动是什么?
  1. Hive中的JPA支持是什么?

Spark面试题50道

  1. 什么是 Spark?
  1. Spark 和 Hadoop的区别是什么?
  1. Spark 中的 RDD 是什么?
  1. RDD 可以持久化,具体是怎么实现的?
  1. Spark 中的累加器是什么?
  1. Spark 中的广播变量是什么?
  1. 什么是 Spark SQL?
  1. Spark Streaming 和 Spark 的区别是什么?
  1. 什么是 Spark MLlib?
  1. Spark 中的 GraphX 是什么?
  1. 如何调优 Spark 作业?
  1. Spark 中的 shuffle 是什么?
  1. Spark 作业的主要两个因素是什么?
  1. 什么是 Spark Standalone?
  1. Spark 中的 master 和 worker 是什么?
  1. Spark 中的 Executor 和 Driver 是什么?
  1. 什么是 Spark 运行模式?
  1. 如何在 Spark 中设置运行模式?
  1. 什么是线程池?
  1. Spark 中通过什么机制实现数据共享?
  1. Spark 中的数据分区是什么?
  1. Spark 中的算子都有哪些类型?
  1. 什么是 DAG?
  1. 如何使用 Spark 进行数据清洗?
  1. 什么是 Spark 缓存?
  1. Spark 中的 coalesce 和 repartition 联系和区别是什么?
  1. Spark 中的 map 和 flatMap 区别是什么?
  1. Spark 中的 filter 和 where 的区别是什么?
  1. Spark 中的 join 和 cogroup 区别是什么?
  1. Spark 是否支持多语言?
  1. Spark 支持哪些文件格式?
  1. Spark 中的并行度怎么设置?
  1. 什么是 Spark Checkpoint?
  1. 如何调试 Spark 作业?
  1. Spark 中的事件监听器是什么?
  1. 如何使用 Spark 进行机器学习?
  1. Spark 是否支持实时流分析?
  1. Spark 中如何控制并发度?
  1. Spark 中的 reduceByKey 和 groupByKey 的区别是什么?
  1. 什么是 Spark Scheduler?
  1. Spark 中的任务调度是如何完成的?
  1. Spark 中如何使用过滤器?
  1. Spark 中数据接收器是什么?
  1. 如何使用 Spark 进行数据聚合操作?
  1. Spark 中的数据源是什么?
  1. Spark 中 RDD 的 partition 分配机制是什么?
  1. 如何使用 Spark 进行数据转换操作?
  1. Spark 中的串行化和反串行化是什么?
  1. Spark 中的 RDD 是如何实现容错机制的?
  1. 什么是 Spark 整合 YARN?

Spark Streaming面试题50道

  1. 什么是Spark Streaming?它与Spark有什么不同?
  1. Spark Streaming如何处理离线数据?
  1. 什么是DStream(离散数据流)?如何创建一个DStream?
  1. 什么是RDD(弹性分布式数据集)?
  1. 如何将已有的RDD转换为DStream?
  1. 过滤器转换器(Filter Transformers)是什么?在Spark Streaming中有哪些可用的过滤器转换器?
  1. 什么是窗口操作?如何使用它们?
  1. 什么是输出操作?在Spark Streaming中有哪些可用的输出操作?
  1. 你在处理数据时遇到了内存问题,你该如何处理?
  1. 在处理数据时,你发现处理速度很慢,你该如何优化它?
  1. Spark Streaming在哪些行业中得到广泛应用?
  1. 什么是数据重复?Spark Streaming如何处理重复数据?
  1. 什么是延迟(Latency)?如何减少延迟?
  1. Spark Streaming与Kafka的集成是如何实现的?
  1. Spark Streaming可以如何处理实时大数据处理的问题?
  1. 什么是数据突发(Data Spikes)?如何处理突发的数据流?
  1. 什么是容错性(Fault Tolerance)?Spark Streaming如何保证容错性?
  1. 什么是累加器(Accumulators)?在Spark Streaming中有哪些可用的累加器?
  1. 批处理和实时处理有什么区别?Spark Streaming是批处理还是实时处理?
  1. 什么是Spark应用程序?如何使用Spark应用程序?
  1. 在Spark应用程序中,怎么设置SparkConf?
  1. RDD持久化(Persistence)是什么?为什么它很重要?
  1. Spark里有哪些调度器?它们有什么不同?
  1. 在Spark中,大数据通常是以什么形式存储的?有哪些支持Spark的存储格式?
  1. 如何在Spark中使用本地模式(local mode)进行开发和测试?
  1. DataFrame和RDD有哪些不同?它们各自的优缺点是什么?
  1. 什么是Spark SQL?它与SQL有什么不同?
  1. Spark SQL支持哪些常见的数据源?如何使用它们?
  1. 可以在Spark Streaming中使用Spark SQL吗?有哪些限制或注意事项?
  1. 什么是Spark MLlib?它有哪些机器学习算法?
  1. 如何在Spark中使用Python编写代码?
  1. 如何在Spark中使用Java编写代码?
  1. 如何在Spark中使用Scala编写代码?
  1. 什么是GraphX?它有哪些应用场景?
  1. 在Spark中,如何配置Executor内存?
  1. 在Spark中,什么是RDD依赖关系(Dependency)?
  1. 如何在Spark中实现乐观并发控制?
  1. 什么是Spark的Shuffle操作?如何最小化Shuffle开销?
  1. 如何使用Spark Streaming实现数据清洗?
  1. 当使用Spark Streaming时,如何确保数据精度(Accuracy)?
  1. 什么是RDD分区(Partition)?为什么它很重要?
  1. 如何在Spark中实现自定义数据源?
  1. Spark Streaming在处理流式数据时如何处理断电故障?
  1. 如何使用Spark Streaming将数据写入HBase?
  1. 如何监视Spark Streaming作业的性能?
  1. 什么是Spark的YARN支持?为什么它很重要?
  1. 如何在Spark中实现自定义序列化?
  1. 在使用Spark时,怎么定义Shuffle分区数?
  1. 如何在Spark中处理大量的小文件?
  1. 当使用Spark时,如何处理数据倾斜(Data Skew)问题?

HBase 面试题50道

  1. 什么是Hbase?它与Hadoop的关系是什么?
  1. Hbase的架构是什么?
  1. Hbase的数据模型是什么?
  1. Hbase支持的数据类型有哪些? SparkConf conf = new SparkConf().setAppName("SampleApp").setMaster("spark://localhost:7077"); JavaSparkContext sc = new JavaSparkContext(conf); 1 2 1 ./bin/spark-submit --executor-memory 4g /path/to/my_program.jar 1 sc.setLogLevel("WARN")
  1. Hbase中的列族与列的区别是什么?
  1. Hbase中支持的数据操作有哪些?
  1. Hbase中数据的分布式存储是如何实现的?
  1. Hbase的读写性能如何保证?
  1. Hbase中的副本复制是如何实现的?
  1. Hbase中的数据一致性如何保证?
  1. Hbase中数据的有效期限是如何管理的?
  1. Hbase中支持的存储模式有哪些?
  1. Hbase中的数据压缩方式有哪些?
  1. Hbase中的数据密集型应用场景有哪些?
  1. Hbase中的查询优化是如何实现的?
  1. Hbase中支持的查询方式有哪些?
  1. Hbase中的过滤器是如何实现的?
  1. Hbase中如何实现数据的排序和分组?
  1. Hbase中如何进行数据的聚合操作?
  1. Hbase中是否支持事务操作?
  1. Hbase中支持的批量操作有哪些?
  1. 如何进行Hbase数据的备份和恢复?
  1. Hbase中如何实现数据的迁移和复制?
  1. Hbase中的容错和故障恢复是如何实现的?
  1. Hbase中如何实现数据的权限控制?
  1. Hbase中如何实现数据的日志记录?
  1. Hbase中如何进行性能调优?
  1. Hbase中的版本控制是如何实现的?
  1. Hbase中对于大数据量的存储支持如何?
  1. Hbase中如何实现多租户的支持?
  1. Hbase中的扫描优化是如何实现的?
  1. Hbase中的数据统计是如何实现的?
  1. Hbase中支持的编程语言有哪些?
  1. Hbase中如何实现跨数据中心部署?
  1. Hbase中如何处理数据不一致的问题?
  1. Hbase中如何进行数据的迭代和版本回退?
  1. Hbase中如何实现访问控制和安全性?
  1. Hbase中如何进行数据的扩展和缩减?
  1. Hbase中如何实现数据的分片和负载均衡?
  1. Hbase中如何实现多线程和并发控制?
  1. Hbase中是否支持异步调用?
  1. Hbase中如何实现数据的机器学习和数据挖掘?
  1. Hbase中如何实现实时数据分析和处理?
  1. Hbase中如何实现数据的可视化和交互操作?
  1. Hbase中如何实现数据的缓存和预取操作?
  1. Hbase中的垃圾回收机制是如何实现的?
  1. Hbase中如何进行数据的测试和集成测试?
  1. Hbase中如何实现数据的清洗和过滤?
  1. Hbase中如何处理数据的异常和错误?
  1. Hbase中如何实现数据的实时监控和管理?

Kafka 面试题50道

  1. 什么是Kafka?它用途是什么?
  1. Kafka有哪些主要组件?
  1. Kafka的消息是如何存储的? 它有哪些存储方法?
  1. Kafka的消息如何被发送和接收?
  1. 什么是topic? 如何创建一个topic?
  1. 消费者组是什么? 它如何影响消息传递?
  1. 什么是Kafka broker? 为什么需要多个broker?
  1. Kafka是如何保证消息的可靠性?
  1. 什么是Kafka集群? 它的好处是什么?
  1. 什么是消息的偏移量? 它有哪些用途?
  1. Producer和Consumer不在同一个网络,应该如何解决?
  1. 如何搭建Kafka集群? 它所需的硬件配置是什么?
  1. 什么是Kafka Connect? 它的作用是什么?
  1. 什么是Kafka Stream? 它的作用是什么?
  1. 在Kafka中,什么是ACL? 它为什么重要?
  1. 如何减少Kafka的内存使用?
  1. 你在Kafka中如何实现压缩? 有哪些可用的压缩算法?
  1. 什么是水位线? 如何使用它来控制消费者的偏移量?
  1. 什么是“消息”? 如何表达这个概念?
  1. Kakfa 有哪些常用的API?
  1. 什么是Kafka Connect的转换器?
  1. Kafka 是否支持事务性消息发送? 如何保证事务的一致性?
  1. Kafka 的日志清理策略是什么? 有哪些清理策略可供选择?
  1. 什么是Kafka的消息复制,它如何提高Kafka集群的可用性?
  1. 如何确保Kafka的高可用性和容错性?
  1. Kafka的消息延迟是什么? 如何解决它?
  1. 什么是Kafka的事务监控,它如何实现?
  1. 如何快速定位Kafka集群中的性能问题?
  1. Kafka是否支持SSL/TLS加密,如何配置Kafka的安全性?
  1. 什么是Kafka的生产者拦截器,如何使用它?
  1. Kafka是否支持消息重复消费? 如何解决这个问题?
  1. 如何使用Kafka测试性能和吞吐量?
  1. Kafka的持久性是如何实现的?
  1. 怎么叫省略同步,比如不用同步去改变zookeeper的数据,以达到提升生产效率的目的?
  1. Kafka的消费模式有哪些?
  1. 什么是Kafka中的回调,你可以举个例子吗?
  1. Kafka是否支持分布式事务,它是如何实现的?
  1. 如何配置Kafka的连接器和任务?
  1. Kafka如何处理大量的消息队列?
  1. 什么是Kafka的批量处理,它带来了什么优势?
  1. 如何监测Kafka集群中的性能问题?
  1. Kafka 的消费者 offset 是如何管理的?
  1. 在Kafka中,什么是控制器选举的角色? 什么是它的作用?
  1. Kafka如何处理大量的消息流量?
  1. 在Kafka中,什么是ISR? 它有什么作用?
  1. 在Kafka的主题中,什么是分区键?
  1. 如何使用Kafka检测并且快速解决故障?
  1. Kafka如何实现有序消息传递?
  1. 如何在Kafka中删除主题和分区?
  1. 在Kafka中,如何设置“最新”和“最早”的消息偏移量?

Flume 面试题50道

  1. 什么是Flume?它是做什么用的?
  1. Flume的架构是什么样子的?它有哪些组件?
  1. Flume与Kafka的区别是什么?
  1. Flume的工作原理是什么?
  1. Flume有哪些常用的source组件?
  1. Flume有哪些常用的sink组件?
  1. Flume中的channel组件是用来做什么的?
  1. 如何在Flume中配置多个source和sink?
  1. 在Flume的配置文件中,如何设置source与channel之间的连接?
  1. 在Flume中如何配置多个agent?
  1. Flume可以处理哪些类型的数据?
  1. 如何在Flume中对数据进行过滤操作?
  1. Flume支持哪些通信协议?
  1. 如何在Flume中实现数据的去重操作?
  1. 如果出现了Flume的异常,如何进行排查?
  1. 如何在Flume中设置数据的压缩方式?
  1. 在Flume中,如何实现数据的缓存?
  1. Flume如何保证数据的可靠性?
  1. 如何在Flume中设置数据的可靠性级别?
  1. Flume在处理大数据量时,如何进行性能优化?
  1. Flume中的数据如何进行分片处理?
  1. 在Flume中,如何设置消息的存储格式?
  1. Flume与Hadoop的关系是什么?
  1. 如何在Flume中实现数据的加密传输?
  1. 在高并发情况下,如何调优Flume的性能?
  1. Flume可以处理哪些数据格式?
  1. 在Flume中,如何实现数据的批量发送?
  1. 在Flume中,如何实现数据的转换?
  1. 如何在Flume中进行数据的容错处理?
  1. Flume中的数据如何根据时间进行截断?
  1. 在Flume中,如何实现数据之间的合并操作?
  1. 如何在Flume中设置数据的优先级?
  1. Flume的配置文件中的参数都有哪些含义?
  1. Flume有哪些输入输出的一致性保证机制?
  1. 如何在Flume中进行跨集群的数据传输?
  1. 如何在Flume中实现数据的降噪操作?
  1. 在Flume中,如何实现数据的聚合操作?
  1. 在Flume中,如何设置数据的缓存大小?
  1. 如何在Flume中实现数据的自动转存操作?
  1. Flume中的数据是否支持压缩?
  1. 在Flume的配置文件中,如何设置数据的压缩格式?
  1. 如何在Flume中设置数据的备份方式?
  1. 如何在Flume中实现数据的归档?
  1. 在Flume中,如何设置数据的失效时间?
  1. 如何在Flume中实现数据的过滤?
  1. Flume如何实现数据的定时发送?
  1. 如何在Flume中设置数据的优化策略?
  1. 在Flume中,如何进行动态配置?
  1. Flume中如何实现数据的非阻塞发送?
  1. 如何在Flume中实现数据的精确控制?

Flink 面试题50道

  1. Flink是什么?有什么特点?
  1. Flink如何进行流处理?有哪些流处理API?
  1. Flink的数据模型是什么?有哪些数据结构?
  1. Flink和Spark的区别是什么?
  1. 什么是Flink的时间语义?
  1. Flink的窗口和时间相关的概念是什么?有哪些算子可以用在窗口上?
  1. Flink如何处理延迟数据?
  1. Flink如何保证数据的一致性?
  1. Flink中的Checkpoint是什么?如何实现有状态的流处理?
  1. Flink的任务调度是怎样的?
  1. Flink如何进行分布式计算?有哪些分布式计算相关的算子?
  1. Flink的状态管理如何实现?
  1. Flink如何进行容错处理?
  1. Flink如何实现数据源的异步方式?有哪些异步数据源可用?
  1. Flink支持哪些数据格式?如何进行数据格式的转换?
  1. Flink如何进行数据流的编排和调度?
  1. Flink支持哪些文件格式数据源(如何实现数据输入)?支持哪些文件格式数据输出?
  1. Flink如何进行故障排查和日志记录?
  1. Flink支持哪些数据输出和存储方式?有哪些数据输出和存储相关的算子?
  1. Flink如何进行流量控制和数据流策略管理?
  1. Flink支持哪些实时数据处理案例?如何进行数据处理?
  1. Flink如何实现不间断高速数据导入和导出?
  1. Flink支持哪些数据处理模式?如何进行数据处理模式的选择?
  1. Flink支持哪些分布式计算模式?如何进行分布式计算模式的选择?
  1. Flink如何实现数据流的监控和可视化?
  1. Flink的推理引擎是什么?如何进行推理计算?
  1. Flink如何支持复杂的数据操作流程?
  1. Flink如何进行动态调整任务级别并发度?
  1. Flink的自动化故障分析和调优是如何进行的?
  1. Flink如何支持数据汇聚和流动性处理?
  1. Flink如何进行远程数据处理和调试?
  1. Flink如何处理大数据量下的高性能计算?
  1. Flink如何支持对机器学习模型进行分类和调用?
  1. Flink如何处理流式数据中的异常和离群点?
  1. Flink如何支持流处理中的动态数据交互?
  1. Flink支持哪些流处理机制(如:消息队列,发布订阅,数据广播)?
  1. Flink如何进行数据批量处理?
  1. Flink如何进行实时数据处理?
  1. Flink如何进行增量数据处理?
  1. Flink如何保障数据的安全性?
  1. Flink如何进行数据去重和处理?
  1. Flink如何支持多路复用?
  1. Flink如何支持高并发?
  1. Flink如何处理多样化的数据来源?
  1. Flink如何进行数据去噪和质量处理?
  1. Flink如何进行数据可视化?
  1. Flink和Hadoop能进行什么样的数据交互?
  1. Flink如何处理数据集大小的不同?
  1. Flink如何处理流式数据中的时序问题?
  1. Flink如何进行数据转换和应用集成?

Flink

1.1.Flink 的简单介绍 1.2.Flink 和 SparkStreaming 有什么区别 1.3.Flink 是怎么保证数据不丢失的 1.4.Flink 代码编写好了,也设置了 checkpoint,但是有人改动了 Flink 代码,会对checkpoint 的结果产生影响吗 1.5.Flink中 exactly-once 是如何保证的 1.6.Flink 数据量过大怎么办 1.7.Flink 的 slot 和并行度有什么关系 1.8.Flink 的重启策略 1.9.Flink 的广播变量 1.10.Flink 窗口中的 session 1.11.Flink 的状态存储 1.12.Flink 在windows中出现了数据倾斜怎么解决 1.13.Flink 是如何处理反压的 1.14.Flink 中的 operatorChain 1.15.Flink 中做聚合的时候 groupby,keyby 中出现热点问题怎么解决 1.16.Flink 中 Taskslot 的概念 1.17.Flink 中常用的算子 1.18.Flink 中的分区策略 1.19.slot 和 parallelism 有什么区别 1.20.Flink 中的水印 1.21.Flinktable/sql 熟悉吗,env 这个类在当中有什么作用 1.22.Flinksql 底层如何实现的 1.23.Flink 的序列化是如何做的 1.24.Flink 是否一定依赖于 Hadooop 1.25.Fink 基础编程模型 1.26.Flink 的并行度了解吗,Flink 的并行度设置是怎样的 1.27.Flink 中的分布式缓存 1.28.Flink 是如何支持批流一体的 1.29.Flink 是如何做到高效的数据交换的 1.30.Flink 是如何进行容错的 1.31.Flink 分布式快照的原理是什么 1.32.Flink 和 Kafka 的连接器有什么特别的地方 1.33.Flink 计算资源的调度是如何实现的 1.34.FlinkCEP 的算子,底层的一些算子,实际场景中心跳停止了 FlinkCEP 如何监听,FlinkCEP 的一些优化工作 1.35.Flink 中的相关参数配置 1.36.利用 Flink 把 Kafka 中的表和 DB 数据库中的表进行 join 的时候,一开始 Flink 可以查到数据,但是过了一段时间后就查询不到数据了,解决方案 1.37.Flink 或 Spark 怎么保证不重复消费 1.38.Flink 中 watermark 的原理 1.39.Flink 设置了多个并行度的时候取最大值还是最小值 1.40.Flink 中 sink 到不同的存储介质,是怎么保证数据不丢失的 1.41.checkpoint 和 savecheckpoint 有什么区别 1.42.Flink 的 checkpoint 的 state 大小大概多大,Flink 的 checkpoint 运行一次的时间大概多久

Spark

2.1.Spark 提交任务的流程 2.2.对 Spark 中并行度的理解 2.3.Spark 有几种部署方式 2.4.Sparkonyarn 作业执行流程,yarn-client 和 yarncluster 有什么区别 2.5.Spark 提交作业时候的基本参数(重点) 2.6.为什么使用 Yarn 来部署 Spark 2.7.对于 Spark 中的数据倾斜有什么解决方案 2.8.如何理解 Spark 中的血统概念(RDD) 2.9.简述 Spark 的宽窄依赖,以及 Spark 如何划分 stage,每个 stage 又根据什么决定 task 个数?(笔试重点) 2.10.例举 Spark 中的 Transformation 和 Action 算子,还有进行 Shuffle 的算子 2.11.Repartition 和 Coalesce 关系与区别 2.12.groupByKey 和 reduceByKey 的区别 2.13.分别简述 Spark 中的缓存机制(cache 和 persist)与 checkpoint 机制,并指出两者的区别与联系 2.14.简述 Spark 中共享变量(广播变量和累加器)的基本原理与用途(重点) 2.15.广播变量使用需要注意什么 2.16.Spark 中的任务的概念 2.17.SparkRDD 是怎么容错的,基本原理是什么 2.18.说说 worker 和 executor 有什么区别 2.19.说说 Spark 中的 Master 2.20.Spark 中的预写日志 2.21.Driver 是什么,作用是什么 2.22.Spark 为什么比 MR 快 2.23.Spark 中的 RDD 介绍一下 2.24.RDD 有哪些缺陷 2.25.RDD 有几种操作 2.26.RDD 创建有哪几种方式 2.27.Spark 程序执行,有时候默认为什么会产生很多 task,怎么修改默认 task执行个数 2.28.当 Spark 涉及到数据库的操作时,如何减少 Spark 运行中的数据库连接数 2.29.Job 和 Task 怎么理解 2.30.Spark 中的 executor 内存(内存模型)分配 2.31.Spark 中的本地小文件读取 2.32.Spark 何时缓存数据 2.33.简述 SparkSQL 中 RDD、DataFrame、DataSet 三者的区别与联系(笔试重点) 2.34.Hadoop 中,Mapreduce 操作的 mapper 和 reducer 阶段相当于spark 中的哪几个算子 2.35.什么是 shuffle,以及为什么需要 shuffle 2.36.spark.default.parallelism 这个参数有什么意义,实际生产中如何设置 2.37.使用 Spark 完成 WordCount 2.38.cache 后面能不能接其他算子,它是不是 action 操作 2.39.Spark 提交你的 jar 包时所用的命令是什么 2.40.Spark 并行度是什么,如何合理的设置并行度 2.41.SparkStreaming 的执行流程(大概) 2.42.SparkStreaming 有哪几种方式消费 Kafka 中的数据,区别是什么 2.43.SparkStreaming 的窗口函数的原理 2.44.Spark 中的 4040 端口有什么功能 2.45.如何使用 Spark 实现 TopN 2.46.Spark 中的容错方法 2.47.Spark 中的分区方式 2.48.Spark-On-Hive

Java

3.1.Java 中的集合 3.2.Java 中的多线程如何实现 3.3.Java 中的 JavaBean 怎么进行去重 3.4.Java 中 == 和 equals 有什么区别 3.5.Java 中的任务定时调度器

SQL

4.1.SQL 中的聚合函数 4.2.SQL 中的各种 join 与区别 4.3.简单说一下 MySQL 中的数据结构 4.4.关系型数据库和大数据组件中的 nosql 数据库有什么区别

Hadoop

6.1.Yarn 6.1.1.Yarn 提交作业流程 6.1.2.Yarn 的资源调度 6.1.3.Yarn 成员 6.2.HDFS 6.2.1.HDFS 读写流程 6.2.2.HDFS 中小文件过多会有什么影响 6.2.3.HDFS 中小文件过多怎么处理 6.2.4.HDFS 成员 6.2.5.NameNode 和 SecondaryNameNode 的区别与联系 6.2.6.HDFS 中 Fsimage 与 Edits 详解 6.3.MapReduce 6.3.1.map 阶段的工作机制 6.3.2.reduce 阶段的工作机制 6.3.3.MR 的优劣 6.3.4.MR 的相关配置

Hive

7.1.Hive 相关数据的存储位置 7.2.Hive 内外表的区别 7.3.Hive 如何实现分区 7.4.Hive 装载数据 7.5.Hive 修复分区数据 7.6.Hive 中的排序方式及对比 7.7.row_number()、rank()、dense_rank() 的区别: 7.8.Hive 如何实现数据的导入和导出 7.9.Hive 中 over() 的使用

Flume

11.1.Flume 的架构组件 11.2.Flume 的多种架构 11.3.Flume 的相关配置

Kafka

12.1.Kafka为什么这么快 12.2.Kafka 怎么避免重复消费 12.3.Kafka 怎么保证顺序消费 12.4.Kafka 分区有什么作用 12.5.Kafka 如何保证数据不丢失 12.6.消费者与消费者组之间的关系 12.7.Kafka 架构及基本原理

HBase

13.1.HBase 的架构组成 13.2.HBase 的读写流程 13.3.HBase 中 rowkey 的设计 13.4.Region 的分区和预分区 13.5.HBase 优缺点

ClickHouse

14.1.ClickHouse 建表时要注意什么 14.2.ClickHouse 进行表数据更新或删除操作时候的 SQL 语句 14.3.ClickHouse 引擎分类及特点 14.4.MergerTree 引擎分类 14.5.ClickHouse 表的分类 14.6.ClickHouse 中的 Update、Delete 操作 14.7.OLAP 组件分类 14.8.ClickHouse 属于 OLAP 还是 OLTP

随机

1、rdd的5大特性: 2、Hive分桶和分区的区别: 3、Hive表动态分区和静态分区 4、一个Hive表,数据量很大,分布在集群的100个节点,现在需要定期取top100,如何设计/实现: 5、窗口函数 6、hive sql和spark sql底层执行流程? 6、Spark任务的执行流程 7、Spark和MapReduce 8、cache和persist的区别 9、什么是宽窄依赖 10、spark的shuffle和MR shuffle 1)shuffle的过程描述一下 hadoop shuffle: spark shuffle: 2)MR的shuffle和Spark的shuffle之间的区别 11、增量合并具体是怎么实现的你了解吗?如果让你来实现的话你怎么写 12、flink和spark streaming有什么区别 13、spark streamiing相比flink有什么优点 14、udf和udaf 15、spark你常用的参数设置有哪些 16、Hive的order by和sort by什么区别,都有哪些应用场景 17、Hive的distribute by和group by有什么区别 18、Dataframe和RDD有什么区别 19、Flink的原理 20、数仓分层了解吗 21、数仓建模除了维度建模还有其他的吗 22、数仓的特性讲一下 23、你真的了解全量表,增量表及拉链表吗? 24、数据仓库中的维表和事实表 25、.数据倾斜有哪几种优化思路? 26、考虑一个100亿数据的表关联一个10亿数据的表,如何优化 27、HashMap的底层原理 28、去重都有哪些方式? 29、数据量特别大的情况下(例如10g、100g、1t)如何用mr实现全局排序? 30、flatmap算子的理解,flat原理,返回类型?(iterator) 31、hive的metastore的三种模式 32、hive join的类别(方式)? 33、对一组数据频繁插入删除,选哪种数据结构 34、MR中的map具体流程 35、MR的map阶段完成了几次排序? 36、海量数据处理 - 10亿个数中找出最大的10000个数(top K问题) 37、hdfs读写流程 38、hdfs的体系结构 39、一个datanode 宕机,怎么一个流程恢复 40、hadoop 的 namenode 宕机,怎么解决 41、namenode对元数据的管理 42、yarn资源调度流程 43、hadoop中combiner和partition的作用,分别举例什么情况要使用 combiner,什么情况不使用? 44、用mapreduce怎么处理数据倾斜问题? 45、Mapreduce 的 map 数量 和 reduce 数量是由什么决定的 ,怎么配置 46、MR运行流程解析 47、HDFS数据安全性如何保证 48、在通过客户端向hdfs中写数据的时候,如果某一台机器宕机了,会怎么处理 49、Hadoop优化有哪些方面 0)HDFS 小文件影响 1)数据输入小文件处理: 2)Map 阶段 3)Reduce 阶段 4)IO 传输 5)整体 50、列出正常工作的hadoop集群中hadoop都分别启动哪些进程以及他们的作用 51、Hadoop总job和Tasks之间的区别是什么? 52、Hadoop高可用HA模式 52、简要描述安装配置一个hadoop集群的步骤 53、yarn的三大调度策略 54、hadoop的shell命令用的多吗?,说出一些常用的 55、namenode的fsimage与editlog详解 56、left semi join和left join区别 57、hive内部表和外部表的区别,及使用场景 58、用hive创建表有几种方式 59、线上业务每天产生的业务日志(压缩后>=3G),每天需要加载到hive的log表中,将每天产生的业务日志在压缩之后 load到hive的log表时,最好使用的压缩算法是哪个,并说明其原因 60、若在hive中建立分区仍不能优化查询效率,建表时如何优化 61、Hive 里边字段的分隔符用的什么?为什么用t?有遇到过字段里 边有t 的情况吗,怎么处理的?为什么不用 Hive 默认 的分隔符,默认的分隔符是什么? 62、在hive的row_number中distribute by 和 partition by的区别 63、hive和传统数据库之间的区别 64、hive中导入数据的4种方式 65、创建rdd的几种方式 66、Spark中Partition的数量由什么决定 67、Spark中coalesce与repartition的区别 68、sortBy 和 sortByKey的区别,reduceByKey和groupBykey的区别 69、map和mapPartitions的区别 70、cache和checkPoint的比较 71、spark共享变量和累加器 72、当 Spark 涉及到数据库的操作时,如何减少 Spark 运行中的数据库连接数? 73、特别大的数据,怎么发送到excutor中? 74、Spark on Yarn作业执行流程?yarn-client和yarn-cluster有什么区别? 75、spark任务为什么会被yarn kill掉? 76、sql问题:连续活跃n天用户的获取 77、spark中reparation和coalesce的用法和区别 78、ClickHouse常用表引擎 79、Spark小文件合并 80、数据中台之OneData体系 81、维度建模和范式建模对比

Hadoop 常见面试题

  1. mr 工作原理 ☆☆☆☆
  1. split 机制 ☆☆☆☆☆
  1. namenode,datanode,secondaryNameNode分别是干什么的?☆☆☆☆☆
  1. mr on yarn 工作原理 ☆☆☆☆☆
  1. fsimage 和 edits 是干什么的?为什么要使用?☆☆☆☆
  1. hdfs 工作原理 ☆☆☆☆
  1. block 副本放置策略 ☆☆☆ Hive 常见面试题
  1. 简述Hive工作原理 ☆☆☆☆☆
  1. hive 内部表和外部表区别 ☆☆☆☆☆
  1. 分区和分桶的区别 ☆☆☆☆ 3.1 分区 3.2 分桶
  1. 将数据直接上传到分区目录(hdfs)上,让分区表和数据产生关联有哪些方式?☆☆
  1. 桶表是否可以通过直接load将数据导入?☆☆
  1. order by,sort by,distribute by,cluster by的区别?☆☆☆☆
  1. 聚合函数是否可以写在order by后面,为什么?☆☆☆☆
  1. 导致数据倾斜的原因有哪些,有什么解决的方案?☆☆☆☆☆ 什么是数据倾斜? 造成数据倾斜的原因 你是如何发现Hive数据倾斜? 解决办法 1 合理设置Map数 2 小文件合并 3 复杂文件增加Map数 4 合理设置Reduce数
  1. Hive的四种排序 ☆☆☆
  1. Hive的分区分桶 ☆☆☆☆☆
  1. hive中分区可以提高查询效率,分区是否越多越好,为什么?☆☆☆
  1. hive 调优 ☆☆☆☆☆ 12.1 hive-site.xml 与 hive cli 调参 ☆☆☆☆☆ 12.2 数据压缩 ☆☆☆☆☆ 12.2.1 数据的压缩说明 12.2.2 压缩配置参数 12.3 文件压缩 ☆☆☆☆☆ 12.3.1 列式存储和行式存储 12.3.2 TEXTFILE格式 12.3.3 ORC格式 12.3.4 PARQUET格式 Spark 常见面试题
  1. 说出几个常见的rdd算子? ☆☆☆☆ 1.1 transformation算子 1.2 action 算子
  1. rdd是什么?rdd的创建方式有几种?分别是怎么分区的?☆☆☆ 2.1 rdd是什么? 2.2 rdd的创建方式
  1. RDD的依赖关系 ☆☆☆☆☆ 3.1 宽依赖:多个子RDD的分区依赖同一个父RDD的Partition 3.2 窄依赖:每一个父RDD的Partition最多被子RDD的 一个Partition使用 3.3 为什么要划分依赖关系?
  1. task,stage,job分别是什么? ☆☆☆☆☆ 4.1 task 4.2 stage 4.3 job 4.4 为什么要划分 stage?
  1. RDD的缓存持久化机制?☆☆☆☆☆ 5.1 cache与persist: 5.2 checkpoint:
  1. spark常见调优 ☆☆☆☆☆ 6.1 修改序列化机制有效压缩数据量,通过使用Kryo优化序列化性能 ☆☆☆☆☆ 6.2 在实际的生产环境中,提交spark任务时,使用spark-submit shell脚本,在里面调整对应的参数。☆☆☆☆ 6.3 提高并行度 ☆☆☆☆ 6.4 RDD 的重用和持久化 ☆☆☆☆☆ 6.5 适当将那些多次使用变量广播出去 ☆☆ 6.6 尽量避免shuffle ☆☆☆☆☆ 6.7 使用map-side预聚合的shuffle操作 ☆☆☆ 6.8 使用高性能的算子 ☆☆☆☆ 6.8.1 使用reduceByKey/aggregateByKey替代groupByKey 6.8.2 使用mapPartitions替代普通map ☆☆☆☆ 6.8.3 使用foreachPartitions替代foreach ☆☆☆☆ 6.8.4 使用filter之后进行coalesce操作 ☆☆☆☆ 6.8.5 使用repartitionAndSortWithinPartitions替代repartition与sort类操作 ☆☆☆ 6.8.6 使用fastutil优化数据格式 ☆☆☆☆☆ Flume 常见面试题
  1. Flume 工作机制 ☆☆☆☆
  1. Flume 采集数据出现丢失怎么办? ☆☆☆☆☆
  1. Flume 高可用 ☆☆☆☆ 3.1 failover 故障转移 3.2 load balance 负载均衡
  1. Flume上传文件到HDFS时参数大量小文件? ☆☆☆
  1. Flume内存 ☆☆☆
  1. Flume 事务 ☆☆☆☆
  1. 你是如何实现Flume数据传输的监控的 ☆☆☆
  1. Flume 的 Source,Sink,Channel 的作用?你们公司Source 是什么类型? ☆☆☆☆☆
  1. Flume 参数调优 ☆☆☆☆ Kafka 常见面试题
  1. Kafka 消息数据积压,消费能力不足怎么处理? ☆☆☆☆☆
  1. Kafka 消息重复消费和消息丢包的解决办法 ☆☆☆☆☆
  1. Kafka 有哪些情形会造成重复消费? ☆☆☆☆☆
  1. 那些情景会造成消息漏消费? ☆☆☆☆☆
  1. Kafka中的ISR、AR又代表什么?☆☆☆☆☆
  1. Kafka中的HW、LEO等分别代表什么? ☆☆☆☆☆
  1. Kafka 如何保证数据的顺序性,该如何解决?它怎么体现消息顺序性的?☆☆☆☆☆ 7.1 解决数据顺序性 7.2 Kafka 如何体现消息有序性的
  1. Kafka中的分区器、序列化器、拦截器是否了解?它们之间的处理顺序是什么?☆☆☆
  1. 当你使用kafka-topics.sh创建(删除)了一个topic之后,Kafka背后会执行什么逻辑? ☆☆☆
  1. Kafka有什么优缺点?
  1. topic的分区数可不可以增加?如果可以怎么增加?如果不可以,那又是为什么?☆☆☆☆☆
  1. topic的分区数可不可以减少?如果可以怎么减少?如果不可以,那又是为什么?☆☆☆☆☆
  1. Kafka有内部的topic吗?如果有是什么?有什么所用? ☆☆☆☆
  1. Kafka分区分配的概念? ☆☆☆☆☆
  1. Kafka如何保证不丢失消息?☆☆☆☆☆
  1. Kafka中有那些地方需要选举?这些地方的选举策略又有哪些?☆☆☆☆☆
  1. Kafka的那些设计让它有如此高的性能?☆☆☆☆☆ Hbase 常见面试题
  1. rowkey 设计规则 ☆☆☆☆☆ 1.1 rowkey 怎么设计?☆☆☆☆☆
  1. 提高Hbase读写性能的通用做法? ☆☆☆
  1. 讲一下 Hbase 架构 ☆☆☆☆
  1. 讲一下hbase读数据的流程 ☆☆☆☆
  1. 讲一下hbase的写数据的流程 ☆☆☆☆
  1. 讲一下hbase的存储结构,这样的存储结构有什么优缺点 ☆☆☆☆ Redis 20问
  1. 你们项目中有用过 Redis ? 场景在哪里? ☆☆☆☆☆
  1. Redis 线程是否安全 ?☆☆☆☆ io 多路复用原则
  1. Redis 中是否有事务机制?事务支持回滚吗?☆☆☆☆☆ 为什么 redis 不采用事务回滚?
  1. Redis 与 mysql 如何保持数据一致性?☆☆☆☆
  1. Redis 宕机,数据会丢失吗? ☆☆☆☆☆
  1. Redis 持久化 ☆☆☆☆☆ 6.1 RDB 和 AOF 6.1.1 RDB 6.1.2 AOF 6.2 RDB 和 AOF 区别?
  1. Redis 中如何存放对象 ☆☆☆
  1. Redis 内存满了怎么办?☆☆☆☆
  1. Redis 如何实现高可用? 哨兵机制的作用?☆☆☆☆☆ 9.2 哨兵机制的作用? 9.3 哨兵机制的优缺点
  1. Redis 缓存穿透、雪崩、击穿如何解决?☆☆☆☆☆
  1. Redis 如何实现分布式锁? ☆☆☆☆
  1. Redis 集群有哪些方案?☆☆☆ 12.1 Twemproxy – Twitter 12.2 Codis – 豌豆荚 12.3 Redis Cluster – 官方
  1. Redis 有哪些数据结构? ☆☆☆☆☆
  1. Redis 数据结构模型(跳跃表、布隆过滤器)☆☆☆
  1. 订单超时自动取消如何实现? ☆☆☆☆☆
  1. Redis 主从复制如果网络延时怎么办?☆☆☆☆
  1. Redis 主从同步效率非常慢怎么解决?☆☆☆☆
  1. Redis Cluster 集群 ☆☆☆☆
  1. 说说你对redis 哨兵机制的理解 ☆☆☆☆☆
  1. 为什么 Redis 需要把所有数据放到内存中?☆☆☆☆☆
Matplotlib学习Flink端到端的精确一次
Loading...