50个最受欢迎的大数据面试问题
大数据时代才刚刚开始。随着越来越多的公司倾向于大数据来运营他们的业务,对人才的需求空前高涨。这对您意味着什么?如果您想在任何大数据岗位上工作,它只会转化为更好的机会。您可以选择成为数据分析师,数据科学家,数据库管理员,大数据工程师,Hadoop大数据工程师等。
50个最受欢迎的大数据面试问题
为了使您的事业有优势,您应该为大数据面试做好充分的准备。在开始之前,重要的是要了解面试是一个您和面试官互动的地方,彼此之间只能了解对方,而不能互相了解。因此,您不必隐藏任何东西,只需诚实即可诚实地回答问题。如果您感到困惑或需要更多信息,请随时向面试官提问。始终对您的回答诚实,并在需要时提出问题。
以下是大数据面试的主要问题,以及针对特定问题的详细答案。对于更广泛的问题,答案取决于您的经验,我们将分享一些有关如何回答这些问题的提示。
基本的大数据面试问题
每当您去进行大数据面试时,面试官都会问一些基本的问题。无论您是大数据领域的新手还是经验丰富的人,都需要具备基本知识。因此,让我们涵盖一些常见的基本大数据采访问题和破解大数据采访的答案。
1.您对“大数据”一词有什么了解?
答: 大数据是与复杂和大型数据集相关的术语。关系数据库无法处理大数据,这就是为什么使用特殊的工具和方法对大量数据执行操作的原因。大数据使公司能够更好地了解其业务,并帮助他们从定期收集的非结构化和原始数据中获取有意义的信息。大数据还使公司能够根据数据做出更好的业务决策。
2.大数据的五个V是什么?
答:大数据的五个V如下:
卷(Volume)-卷表示卷,即以高速率增长的数据量,即以PB为单位的数据量
速度(Velocity)–速度是数据增长的速度。社交媒体在增长数据的速度中起着重要作用。
多样性(Variety)–多样性是指不同的数据类型,即各种数据格式,例如文本,音频,视频等。
准确性(Veracity)–准确性是指可用数据的不确定性。由于大量数据带来不完整和不一致,因此会出现准确性。
价值(Value)–价值是指将数据转化为价值。通过将访问的大数据转化为价值,企业可以产生收入。
注意: 这是大数据采访中提出的基本且重要的问题之一。如果您看到面试官有兴趣了解更多信息,则可以选择详细解释五个V。但是,如果有人询问“大数据”一词,甚至可以提及这些名称。
3.告诉我们大数据和Hadoop之间的关系。
答: 大数据和Hadoop几乎是同义词。随着大数据的兴起,专门用于大数据操作的Hadoop框架也开始流行。专业人士可以使用该框架来分析大数据并帮助企业做出决策。
注意: 在大数据采访中通常会问这个问题。 可以进一步去回答这个问题,并试图解释的Hadoop的主要组成部分。
4.大数据分析如何有助于增加业务收入?
答:大数据分析对于企业来说已经变得非常重要。它可以帮助企业与众不同,并增加收入。通过预测分析,大数据分析为企业提供了定制的建议。此外,大数据分析使企业能够根据客户的需求和偏好推出新产品。这些因素使企业获得更多收入,因此公司正在使用大数据分析。通过实施大数据分析,公司的收入可能会大幅增长5-20%。一些使用大数据分析来增加收入的受欢迎的公司是-沃尔玛,LinkedIn,Facebook,Twitter,美国银行等。
5.解释部署大数据解决方案应遵循的步骤。
答:以下是部署大数据解决方案的三个步骤–
(1)资料撷取
部署大数据解决方案的第一步是数据摄取,即从各种来源提取数据。数据源可以是Salesforce之类的CRM,SAP之类的企业资源计划系统,MySQL之类的RDBMS或任何其他日志文件,文档,社交媒体源等。可以通过批处理作业或实时流来摄取数据。然后将提取的数据存储在HDFS中。
(2)数据存储
提取数据后,下一步是存储提取的数据。数据可以存储在HDFS或NoSQL数据库(即HBase)中。HDFS存储适用于顺序访问,而HBase适合随机读取/写入访问。
(3)数据处理
部署大数据解决方案的最后一步是数据处理。数据通过Spark,MapReduce,Pig等处理框架之一进行处理。
6.定义HDFS和YARN的各个组件
答: HDFS的两个主要组成部分是-
NameNode –这是主节点,用于处理HDFS中数据块的元数据信息
DataNode / Slave节点–这是一个充当从节点存储数据,供NameNode处理和使用的节点
除了满足客户端请求之外,NameNode还执行以下两个角色之一:
CheckpointNode –它在与NameNode不同的主机上运行
BackupNode-这是一个只读的NameNode,其中包含文件系统元数据信息(不包括块位置)
YARN的两个主要组成部分是–
ResourceManager –此组件接收处理请求,并根据处理需要相应地分配给相应的NodeManager。
NodeManager –在每个数据节点上执行任务
7.为什么将Hadoop用于大数据分析?
答: 由于数据分析已成为业务的关键参数之一,因此,企业正在处理大量的结构化,非结构化和半结构化数据。在Hadoop以其以下功能为主要角色的情况下,分析非结构化数据非常困难
存储
处理中
数据采集
此外,Hadoop是开源的,并在商品硬件上运行。因此,它是企业的成本效益解决方案。
8.什么是fsck?
答: fsck代表文件系统检查。这是HDFS使用的命令。此命令用于检查不一致以及文件中是否存在任何问题。例如,如果文件缺少任何块,则HDFS将通过此命令得到通知。
- NAS(网络附加存储)和HDFS之间的主要区别是什么?
答: NAS(网络附加存储)和HDFS之间的主要区别–
HDFS在计算机集群上运行,而NAS在单台计算机上运行。因此,数据冗余是HDFS中的常见问题。相反,对于NAS,复制协议是不同的。因此,数据冗余的机会要少得多。
对于HDFS,数据将作为数据块存储在本地驱动器中。对于NAS,它存储在专用硬件中。
10.格式化NameNode的命令是什么?
答案: $ hdfs namenode -format
基于经验的大数据面试问题
如果您在大数据世界中有相当丰富的工作经验,那么根据您以前的经验,您将在大数据采访中被问到许多问题。这些问题可能只是与您的经验或场景有关。因此,请准备好这些最佳的大数据面试问题和答案
11.您有大数据经验吗?如果是这样,请与我们分享。
处理方法: 由于该问题是主观问题,因此没有具体答案,并且答案取决于您以前的经验。在大数据采访中问这个问题时,采访者想了解您以前的经验,并且还试图评估您是否适合项目要求。
那么,您将如何处理这个问题?如果您以前有经验,请从以前的职务开始,然后慢慢地在对话中添加细节。告诉他们您使项目成功的贡献。这个问题通常 是面试中问到的第二个 或第三个问题。后面的问题基于此问题,因此请仔细回答。您还应注意不要过度处理以前的工作。保持简单明了。
12.您喜欢好的数据还是好的模型?为什么?
如何处理: 这是一个棘手的问题,但通常在大数据采访中会问到。它要求您在良好的数据或良好的模型之间进行选择。作为候选人,您应该尝试根据自己的经验来回答。许多公司希望遵循严格的数据评估流程,这意味着他们已经选择了数据模型。在这种情况下,拥有良好的数据可能会改变游戏规则。另一种方法是根据良好的数据选择模型。
如前所述,请根据您的经验进行回答。但是,不要说拥有良好的数据和良好的模型很重要,因为在现实生活中很难同时拥有两者。
13.您是否会优化算法或代码以使其运行更快?
如何处理: 这个问题的答案应该始终是“是”。现实世界中的性能很重要,它并不取决于您在项目中使用的数据或模型。
面试官也可能想知道您以前是否有代码或算法优化方面的经验。对于初学者而言,这显然取决于他过去从事的项目。经验丰富的候选人也可以相应地分享他们的经验。但是,请诚实对待您的工作,如果您过去没有优化代码,那也很好。只要让面试官知道您的实际经验,您就可以破解大数据面试。
14.您如何进行数据准备?
如何进行: 数据准备是大数据项目中的关键步骤之一。大数据采访可能涉及基于数据准备的至少一个问题。当面试官问您这个问题时,他想知道您在数据准备过程中采取了哪些步骤或预防措施。
如您所知,需要进行数据准备才能获得必要的数据,然后可以将这些数据进一步用于建模目的。您应该将此信息传达给面试官。您还应该强调将要使用的模型的类型以及选择该特定模型的原因。最后但并非最不重要的一点,您还应该讨论重要的数据准备术语,例如转换变量,离群值,非结构化数据,识别差距等。
15.如何将非结构化数据转换为结构化数据?
如何处理: 非结构化数据在大数据中非常常见。应将非结构化数据转换为结构化数据,以确保进行正确的数据分析。您可以通过简要区分两者来开始回答问题。完成后,您现在可以讨论将一种形式转换为另一种形式的方法。您也可能会分享实际情况。如果您刚毕业,则可以共享与您的学术项目有关的信息。
通过正确回答此问题,您表示您已了解结构化和非结构化数据的类型,并且具有处理这些数据的实践经验。如果您具体回答该问题,那么您肯定可以破解大数据采访。
16.哪种硬件配置最适合Hadoop作业?
配置4/8 GB RAM和ECC内存的双处理器或核心计算机是运行Hadoop操作的理想选择。但是,硬件配置会根据特定于项目的工作流和处理流程而有所不同,因此需要进行相应的自定义。
17.当两个用户尝试访问HDFS中的同一文件时会发生什么?
HDFS NameNode仅支持独占写入。因此,只有第一个用户将获得文件访问许可,而第二个用户将被拒绝。
18.NameNode出现故障时如何恢复?
需要执行以下步骤以使Hadoop集群正常运行:
使用文件系统元数据副本FsImage来启动新的NameNode。
配置数据节点以及客户端,使它们确认新启动的名称节点。
一旦新的NameNode完成加载最后一个从DataNode接收到足够阻止报告的检查点FsImage,它将开始为客户端提供服务。
对于大型Hadoop集群,NameNode恢复过程会耗费大量时间,这对于例行维护来说是一个更大的挑战。
19.您对Hadoop中的Rack Awareness了解什么?
这是应用于NameNode的算法,用于确定如何放置块及其副本。根据机架定义,在同一机架内的DataNode之间将网络流量最小化。例如,如果我们将复制因子设为3,则将两个副本放在一个机架中,而将第三副本放在一个单独的机架中。
20.“ HDFS块”和“输入分割”之间有什么区别?
HDFS将输入数据物理上划分为块进行处理,这称为HDFS块。
输入拆分是映射器对数据的逻辑划分,用于映射操作。
基本大数据Hadoop面试问题
Hadoop是最受欢迎的大数据框架之一,如果您要进行Hadoop面试,请准备好有关Big Data Hadoop的这些基本级别的面试问题。无论您打算进行Hadoop开发人员还是Hadoop管理员面试,这些问题都将对您有所帮助。
21.解释Hadoop和RDBMS之间的区别。
答: Hadoop和RDBMS之间的区别如下
22.Hadoop中常见的输入格式是什么?
答:以下是Hadoop中常见的输入格式–
文本输入格式– Hadoop中定义的默认输入格式是文本输入格式。
序列文件输入格式–要读取序列中的文件,请使用序列文件输入格式。
键值输入格式–用于纯文本文件(分成几行的文件)的输入格式是键值输入格式。
23.解释Hadoop的一些重要功能。
答: Hadoop支持大数据的存储和处理。它是应对大数据挑战的最佳解决方案。Hadoop的一些重要功能是–
开源– Hadoop是一个开源框架,这意味着它是免费提供的。同样,允许用户根据他们的要求更改源代码。
分布式处理– Hadoop支持数据的分布式处理,即更快的处理。Hadoop HDFS中的数据以分布式方式存储,而MapReduce负责数据的并行处理。
容错– Hadoop具有高度的容错能力。默认情况下,它将为每个块在不同节点上创建三个副本。该编号可以根据需要进行更改。因此,如果一个节点发生故障,我们可以从另一节点恢复数据。节点故障的检测和数据恢复是自动完成的。
可靠性– Hadoop以可靠的方式将数据存储在群集上,而与计算机无关。因此,存储在Hadoop环境中的数据不受计算机故障的影响。
可伸缩性– Hadoop的另一个重要功能是可伸缩性。它与其他硬件兼容,我们可以轻松地将新硬件装配到节点上。
高可用性–即使在硬件出现故障之后,也可以访问存储在Hadoop中的数据。如果发生硬件故障,可以从其他路径访问数据。
24.解释Hadoop运行的不同模式。
答: Apache Hadoop在以下三种模式下运行–
独立(本地)模式–默认情况下,Hadoop以本地模式运行,即在非分布式单节点上运行。此模式使用本地文件系统执行输入和输出操作。此模式不支持使用HDFS,因此用于调试。在此模式下,配置文件不需要自定义配置。
伪分布式模式–在伪分布式模式下,Hadoop与独立模式一样在单个节点上运行。在这种模式下,每个守护程序都在单独的Java进程中运行。由于所有守护程序都在单个节点上运行,因此主节点和从节点都存在相同的节点。
完全分布式模式–在完全分布式模式下,所有守护程序都在单独的单个节点上运行,因此形成了多节点集群。主节点和从节点有不同的节点。
25.解释Hadoop的核心组件。
答: Hadoop是一个开源框架,旨在以分布式方式存储和处理大数据。Hadoop的核心组件是–
HDFS(Hadoop分布式文件系统)– HDFS是Hadoop的基本存储系统。在商用硬件群集上运行的大型数据文件存储在HDFS中。即使硬件出现故障,它也可以以可靠的方式存储数据。
Hadoop MapReduce – MapReduce是负责数据处理的Hadoop层。它编写一个应用程序来处理存储在HDFS中的非结构化和结构化数据。通过将数据划分为独立的任务,它负责并行处理大量数据。该处理过程分为Map和Reduce两个阶段。映射是指定复杂逻辑代码的处理的第一阶段,而精简是指定轻量级操作的处理的第二阶段。
YARN – Hadoop中的处理框架是YARN。它用于资源管理,并提供多个数据处理引擎,即数据科学,实时流和批处理。
26.“ MapReduce”程序中的配置参数是什么?
“ MapReduce”框架中的主要配置参数为:
作业在分布式文件系统中的输入位置
作业在分布式文件系统中的输出位置
数据输入格式
数据输出格式
包含map函数的类
包含reduce函数的类
JAR文件,其中包含映射器,reducer和驱动程序类
27. HDFS中的块是什么,在Hadoop 1和Hadoop 2中其默认大小是多少?我们可以更改块大小吗?
块是硬盘中最小的连续数据存储。对于HDFS,块跨Hadoop群集存储。
Hadoop 1中的默认块大小为:64 MB
Hadoop 2中的默认块大小为:128 MB
是的,我们可以使用hdfs-site.xml文件中的参数dfs.block.size 更改块大小。
28.什么是MapReduce框架中的分布式缓存
分布式缓存是Hadoop MapReduce框架的一项功能,用于缓存应用程序的文件。Hadoop框架使缓存文件可用于数据节点上运行的每个映射/减少任务。因此,数据文件可以在指定作业中作为本地文件访问缓存文件。
29.Hadoop的三种运行模式是什么?
Hadoop的三种运行模式如下:
(1)独立或本地:这是默认模式,不需要任何配置。在这种模式下,Hadoop的以下所有组件均使用本地文件系统,并在单个JVM上运行–
名称节点
数据节点
资源管理器
节点管理器
(2)伪分布式:在这种模式下,所有主和从Hadoop服务都在单个节点上部署和执行。
(3)完全分布式:在这种模式下,Hadoop主服务和从服务在单独的节点上部署和执行。
30.在Hadoop中解释JobTracker
JobTracker是Hadoop中的JVM流程,用于提交和跟踪MapReduce作业。
JobTracker按顺序在Hadoop中执行以下活动–
JobTracker接收客户端应用程序提交给作业跟踪器的作业
JobTracker通知NameNode确定数据节点
JobTracker根据可用的插槽分配TaskTracker节点。
它在分配的TaskTracker节点上提交工作,
JobTracker监视TaskTracker节点。
任务失败时,将通知JobTracker并决定如何重新分配任务。
Hadoop开发人员面试问题复习
破解Hadoop开发人员面试并不容易,但是准备工作可以完成所有工作。如果您是新手,请学习Hadoop概念并进行适当的准备。对不同的文件系统,Hadoop版本,命令,系统安全性等有充分的了解。以下几个问题可以帮助您通过Hadoop开发人员面试。
31.Hadoop中有哪些不同的配置文件?
答: Hadoop中的不同配置文件是–
core-site.xml –此配置文件包含Hadoop核心配置设置,例如I / O设置,这对于MapReduce和HDFS非常常见。它使用主机名端口。
mapred-site.xml –此配置文件通过设置mapreduce.framework.name为MapReduce指定框架名称
hdfs-site.xml –此配置文件包含HDFS守护程序配置设置。它还在HDFS上指定默认阻止权限和复制检查。
yarn-site.xml –此配置文件指定ResourceManager和NodeManager的配置设置。
32.Hadoop 2和Hadoop 3有什么区别?
答:以下是Hadoop 2和Hadoop 3之间的区别–
33.如何在Hadoop中实现安全性?
答: Kerberos用于在Hadoop中实现安全性。使用Kerberos时,共有3个步骤可以高层访问服务。每个步骤都涉及与服务器的消息交换。
身份验证–第一步涉及到客户端对身份验证服务器的身份验证,然后向客户端提供带时间戳的TGT(票证授予票证)。
授权–在此步骤中,客户端使用收到的TGT向TGS(票证授予服务器)请求服务票证。
服务请求–这是在Hadoop中实现安全性的最后一步。然后,客户端使用服务票证向服务器进行身份验证。
34.什么是商品硬件?
答:商品硬件是一种可用性较低,质量较低的低成本系统。商品硬件由RAM组成,因为它执行许多需要RAM才能执行的服务。一个不需要高端硬件配置或超级计算机即可运行Hadoop,它可以在任何商用硬件上运行。
35.NFS与HDFS有何不同?
答:有许多分布式文件系统以它们自己的方式工作。NFS(网络文件系统)是最古老和流行的分布式文件存储系统之一,而HDFS(Hadoop分布式文件系统)是最近使用和流行的处理大数据的系统。 NFS和HDFS之间的主要区别如下:
36.Hadoop MapReduce如何工作?
MapReduce操作分为两个阶段。
映射阶段–在此阶段,输入数据由映射任务拆分。地图任务并行运行。这些拆分数据用于分析目的。
减少阶段-在此阶段,从整个集合中汇总相似的拆分数据并显示结果。
37.什么是MapReduce?您运行MapReduce程序使用的语法是什么?
MapReduce是Hadoop中的一种编程模型,用于在计算机集群(通常称为HDFS)上处理大型数据集。它是一个并行编程模型。
运行MapReduce程序的语法为– hadoop_jar_file.jar / input_path / output_path 。
38.NameNode,Task Tracker和Job Tracker的端口号是什么?
NameNode –端口50070
任务跟踪器–端口50060
作业跟踪器–端口50030
39.HDFS中文件或目录级别的文件权限有哪些不同?
Hadoop分布式文件系统(HDFS)对文件和目录使用特定的权限模型。HDFS中使用了以下用户级别–
所有者
组
其他。
对于上述每个用户,以下权限均适用–
读(r)
写(w)
执行(x)。
上面提到的权限对文件和目录的作用不同。
对于文件–
在[R 权限是用于读取文件
该W¯¯ 许可是写一个文件。
对于目录–
在[R 权限列出内容的特定目录。
该W¯¯ 权限创建或删除一个目录。
该X 许可是用于访问子目录。
40. Mapper的基本参数是什么?
映射器的基本参数是
长写和文本
文字和可写
经验丰富的Hadoop开发人员面试问题
面试官对经验丰富的Hadoop开发人员抱有更高的期望,因此他的问题是单一层次的。因此,如果您已获得一些经验,请不要忘记涵盖基于命令,基于场景,基于真实经验的问题。在这里,我们为经验丰富的Hadoop开发人员带来了一些样本面试问题。
41.如何重新启动Hadoop中的所有守护程序?
答:要重新启动所有守护程序,需要首先停止所有守护程序。Hadoop目录包含sbin目录,该目录存储脚本文件以在Hadoop中停止和启动守护程序。
使用stop daemons命令/sbin/stop-all.sh停止所有守护程序,然后使用/sin/start-all.sh命令再次启动所有守护程序。
42.Hadoop中jps命令的用途是什么?
答: jps命令用于检查Hadoop守护程序是否正常运行。此命令显示在计算机上运行的所有守护程序,即Datanode,Namenode,NodeManager,ResourceManager等。
43.说明覆盖HDFS中复制因子的过程。
答:有两种方法可以覆盖HDFS中的复制因子–
方法1:基于文件
在此方法中,使用Hadoop FS Shell根据文件更改复制因子。用于此的命令是:
$ hadoop fs – setrep –w2 / my / test_file
在这里,test_file是复制因子将设置为2的文件名。
方法2:基于目录
在这种方法中,复制因子将基于目录进行更改,即,修改给定目录下所有文件的复制因子。
$ hadoop fs –setrep –w5 / my / test_dir
在这里,test_dir是目录的名称,该目录及其中所有文件的复制因子将设置为5。
44.没有任何数据的NameNode会发生什么?
答:没有任何数据的NameNode在Hadoop中不存在。如果存在NameNode,它将包含一些数据,否则将不存在。
45.说明NameNode恢复过程。
答: NameNode恢复过程涉及以下使Hadoop集群运行的步骤:
在恢复过程的第一步中,文件系统元数据副本(FsImage)启动一个新的NameNode。
下一步是配置数据节点和客户端。然后,这些DataNode和客户端将确认新的NameNode。
在最后一步中,新的NameNode在最后一个检查点FsImage加载完成并从DataNode接收块报告后开始为客户端提供服务。
注意:别忘了,在大型Hadoop集群上,此NameNode恢复过程会消耗大量时间。因此,这使得日常维护变得困难。因此,建议使用HDFS高可用性体系结构。
46.Hadoop CLASSPATH对启动或停止Hadoop守护程序有何必要?
CLASSPATH包含必要的目录,其中包含用于启动或停止Hadoop守护程序的jar文件。因此,设置CLASSPATH对于启动或停止Hadoop守护程序至关重要。
但是,每次设置CLASSPATH都不是我们遵循的标准。通常,CLASSPATH是写在/etc/hadoop/hadoop-env.sh文件中的。因此,一旦我们运行Hadoop,它将自动加载CLASSPATH。
47.为什么HDFS仅适用于大型数据集,而不适用于许多小型文件的正确工具?
这是由于NameNode的性能问题。通常,为NameNode分配了巨大的空间来存储大型文件的元数据。为了获得最佳的空间利用和成本效益,元数据应该来自单个文件。对于小文件,NameNode不会利用整个空间,这是性能优化的问题。
48.为什么我们需要Hadoop中的数据局部性?说明。
HDFS中的数据集在Hadoop集群的DataNodes中存储为块。在执行MapReduce作业期间,各个Mapper会处理块(输入拆分)。如果数据不在映射器执行作业的同一节点中,则需要通过网络将数据从DataNode复制到映射器DataNode。
现在,如果一个MapReduce作业具有100个以上的Mapper,并且每个Mapper尝试同时复制集群中其他DataNode的数据,则将导致严重的网络拥塞,这是整个系统的一个大性能问题。因此,数据接近计算是一种有效且具有成本效益的解决方案,在技术上被称为Hadoop中的数据本地性。它有助于提高系统的整体吞吐量。
数据局部性可以分为三种类型:
本地数据– 这种类型的数据和映射器位于同一节点上。这是最接近的数据,也是最优选的方案。
本地机架– 在这种情况下,映射器和数据位于同一机架上,但位于不同的数据节点上。
不同的机架– 在这种情况下,映射器和数据位于不同的机架上。
49. DFS可以处理大量数据,那么为什么我们需要Hadoop框架?
Hadoop不仅用于存储大数据,而且还用于处理这些大数据。虽然DFS(分布式文件系统)也可以存储数据,但是它缺乏以下功能-
它不是容错的
网络上的数据移动取决于带宽。
50.什么是Sequencefileinputformat?
Hadoop使用一种特定的文件格式,即序列文件。序列文件将数据存储在序列化的键值对中。Sequencefileinputformat是用于读取序列文件的输入格式。