大資料面試題集錦-Hadoop面試題(三)-MapReduce-有解無憂

你準備好面試了嗎?這里有一些面試中可能會問到的問題以及相對應的答案，如果你需要更多的面試經驗和面試題，關注一下"張飛的豬大資料分享"吧，公眾號會不定時的分享相關的知識和資料，

1、談談Hadoop序列化和反序列化及自定義bean物件實作序列化?
2、FileInputFormat切片機制
3、在一個Hadoop 任務中，什么是InputSplit（切片），以及切片是用來做什么的，切片與block有什么區別？
4、如何判定一個job的map和reduce的數量?
5、 Maptask的個數由什么決定？
6、MapTask和ReduceTask作業機制或作業原理
7、描述mapReduce有幾種排序及排序發生的階段
8、描述mapReduce中shuffle階段的作業流程，如何優化shuffle階段
9、描述mapReduce中combiner的作用是什么，一般使用情景，以及和reduce的區別？
10、如果沒有定義partitioner，那資料在被送達reducer前是如何被磁區的？
11、MapReduce 出現單點負載多大，怎么負載平衡？
12、MapReduce 怎么實作 TopN？
13、Hadoop的快取機制（Distributedcache）是怎么樣的？
14、mapReduce如何實作兩個表的join?
15、什么樣的計算不適用mr來提速？
16、更多大資料面試集錦

1、談談Hadoop序列化和反序列化及自定義bean物件實作序列化?

1）序列化和反序列化
? （1）序列化就是把記憶體中的物件，轉換成位元組序列（或其他資料傳輸協議）以便于存盤（持久化）和網路傳輸，
? （2）反序列化就是將收到位元組序列（或其他資料傳輸協議）或者是硬碟的持久化資料，轉換成記憶體中的物件，
? （3）Java的序列化是一個重量級序列化框架（Serializable），一個物件被序列化后，會附帶很多額外的資訊（各種校驗資訊，header，繼承體系等），不便于在網路中高效傳輸，所以，hadoop自己開發了一套序列化機制（Writable），精簡、高效，

2）自定義bean物件要想序列化傳輸步驟及注意事項：

（1）必須實作Writable介面
? （2）反序列化時，需要反射呼叫空參建構式，所以必須有空參構造
? （3）重寫序列化方法
? （4）重寫反序列化方法
? （5）注意反序列化的順序和序列化的順序完全一致
? （6）要想把結果顯示在檔案中，需要重寫toString()，且用"\t"分開，方便后續用
? （7）如果需要將自定義的bean放在key中傳輸，則還需要實作comparable介面，因為mapreduce框中的shuffle程序一定會對key進行排序

2、FileInputFormat切片機制

job提交流程原始碼詳解

 waitForCompletion()
? submit();
? // 1、建立連接
? ? connect();
? ? ? // 1）創建提交job的代理
? ? ? new Cluster(getConfiguration());
? ? ? ? // （1）判斷是本地yarn還是遠程
? ? ? ? initialize(jobTrackAddr, conf);
? // 2、提交job
? submitter.submitJobInternal(Job.this, cluster)
? ? // 1）創建給集群提交資料的Stag路徑
? ? Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf);
? ? // 2）獲取jobid ，并創建job路徑
? ? JobID jobId = submitClient.getNewJobID();
? ? // 3）拷貝jar包到集群
? ? copyAndConfigureFiles(job, submitJobDir);
? ? rUploader.uploadFiles(job, jobSubmitDir);
? ? // 4）計算切片，生成切片規劃檔案
? ? writeSplits(job, submitJobDir);
? ? maps = writeNewSplits(job, jobSubmitDir);
? ? input.getSplits(job);
? ? // 5）向Stag路徑寫xml組態檔
? ? writeConf(conf, submitJobFile);
? ? conf.writeXml(out);
? ? // 6）提交job,回傳提交狀態
? ? status = submitClient.submitJob(jobId, submitJobDir.toString(), job.getCredentials());

3、在一個Hadoop 任務中，什么是InputSplit（切片），以及切片是用來做什么的，切片與block有什么區別？

FileInputFormat原始碼決議(input.getSplits(job))
（1）找到你資料存盤的目錄，
（2）開始遍歷處理（規劃切片）目錄下的每一個檔案，
（3）遍歷第一個檔案xx.txt，
? a）獲取檔案大小fs.sizeOf(xx.txt);，
? b）計算切片大小
computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))，
? c）默認情況下，切片大小=blocksize，
? d）開始切，形成第1個切片：xx.txt—0:128M 第2個切片xx.txt—128:256M 第3個切片xx.txt—256M:300M（每次切片時，都要判斷切完剩下的部分是否大于塊的1.1倍，不大于1.1倍就劃分一塊切片），
? e）將切片資訊寫到一個切片規劃檔案中，
? f）整個切片的核心程序在getSplit()方法中完成，
? g）資料切片只是在邏輯上對輸入資料進行分片，并不會再磁盤上將其切分成分片進行存盤，InputSplit只記錄了分片的元資料資訊，比如起始位置、長度以及所在的節點串列等，
? h）注意：block是HDFS上物理上存盤的存盤的資料，切片是對資料邏輯上的劃分，
（4）提交切片規劃檔案到yarn上，yarn上的MrAppMaster就可以根據切片規劃檔案計算開啟maptask個數，

4、如何判定一個job的map和reduce的數量?

1）map數量
? splitSize=max{minSize,min{maxSize,blockSize}}
? map數量由處理的資料分成的block數量決定default_num = total_size / split_size;
2）reduce數量
? reduce的數量job.setNumReduceTasks(x);x 為reduce的數量，不設定的話默認為 1，

5、 Maptask的個數由什么決定？

一個job的map階段MapTask并行度（個數），由客戶端提交job時的切片個數決定，

6、MapTask和ReduceTask作業機制或作業原理

MapTask作業機制

（1）Read階段：Map Task通過用戶撰寫的RecordReader，從輸入InputSplit中決議出一個個key/value，
（2）Map階段：該節點主要是將決議出的key/value交給用戶撰寫map()函式處理，并產生一系列新的key/value，
（3）Collect收集階段：在用戶撰寫map()函式中，當資料處理完成后，一般會呼叫OutputCollector.collect()輸出結果，在該函式內部，它會將生成的key/value磁區（呼叫Partitioner），并寫入一個環形記憶體緩沖區中，
（4）Spill階段：即“溢寫”，當環形緩沖區滿后，MapReduce會將資料寫到本地磁盤上，生成一個臨時檔案，需要注意的是，將資料寫入本地磁盤之前，先要對資料進行一次本地排序，并在必要時對資料進行合并、壓縮等操作，
（5）Combine階段：當所有資料處理完成后，MapTask對所有臨時檔案進行一次合并，以確保最終只會生成一個資料檔案，

ReduceTask作業機制
（1）Copy階段：ReduceTask從各個MapTask上遠程拷貝一片資料，并針對某一片資料，如果其大小超過一定閾值，則寫到磁盤上，否則直接放到記憶體中，
（2）Merge階段：在遠程拷貝資料的同時，ReduceTask啟動了兩個后臺執行緒對記憶體和磁盤上的檔案進行合并，以防止記憶體使用過多或磁盤上檔案過多，
（3）Sort階段：按照MapReduce語意，用戶撰寫reduce()函式輸入資料是按key進行聚集的一組資料，為了將key相同的資料聚在一起，Hadoop采用了基于排序的策略，由于各個MapTask已經實作對自己的處理結果進行了區域排序，因此，ReduceTask只需對所有資料進行一次歸并排序即可，
（4）Reduce階段：reduce()函式將計算結果寫到HDFS上，

7、描述mapReduce有幾種排序及排序發生的階段

1）排序的分類：
? （1）部分排序：
? ? MapReduce根據輸入記錄的鍵對資料集排序，保證輸出的每個檔案內部排序，
? （2）全排序：
? ? 如何用Hadoop產生一個全域排序的檔案？最簡單的方法是使用一個磁區，但該方法在處理大型檔案時效率極低，因為一臺機器必須處理所有輸出檔案，從而完全喪失了MapReduce所提供的并行架構，
? ? 替代方案：首先創建一系列排好序的檔案；其次，串聯這些檔案；最后，生成一個全域排序的檔案，主要思路是使用一個磁區來描述輸出的全域排序，例如：可以為待分析檔案創建3個磁區，在第一磁區中，記錄的單詞首字母a-g，第二磁區記錄單詞首字母h-n, 第三磁區記錄單詞首字母o-z，
? （3）輔助排序：（GroupingComparator分組）
? ? Mapreduce框架在記錄到達reducer之前按鍵對記錄排序，但鍵所對應的值并沒有被排序，甚至在不同的執行輪次中，這些值的排序也不固定，因為它們來自不同的map任務且這些map任務在不同輪次中完成時間各不相同，一般來說，大多數MapReduce程式會避免讓reduce函式依賴于值的排序，但是，有時也需要通過特定的方法對鍵進行排序和分組等以實作對值的排序，
? （4）二次排序：
? ? 在自定義排序程序中，如果compareTo中的判斷條件為兩個即為二次排序，
2）自定義排序WritableComparable
? bean物件實作WritableComparable介面重寫compareTo方法，就可以實作排序
? ? @Override
? ? public int compareTo(FlowBean o) {
? ? ? // 倒序排列，從大到小
? ? ? return this.sumFlow > o.getSumFlow() ? -1 : 1;
? ? }
3）排序發生的階段：
? （1）一個是在map side發生在spill后partition前，
? （2）一個是在reduce side發生在copy后 reduce前，

8、描述mapReduce中shuffle階段的作業流程，如何優化shuffle階段

磁區，排序，溢寫，拷貝到對應reduce機器上，增加combiner，壓縮溢寫的檔案，

9、描述mapReduce中combiner的作用是什么，一般使用情景，以及和reduce的區別？

1）Combiner的意義就是對每一個maptask的輸出進行區域匯總，以減小網路傳輸量，
2）Combiner能夠應用的前提是不能影響最終的業務邏輯，而且，Combiner的輸出kv應該跟reducer的輸入kv型別要對應起來，
3）Combiner和reducer的區別在于運行的位置，
? Combiner是在每一個maptask所在的節點運行；
? Reducer是接收全域所有Mapper的輸出結果，

10、如果沒有定義partitioner，那資料在被送達reducer前是如何被磁區的？

如果沒有自定義的 partitioning，則默認的 partition 演算法，即根據每一條資料的 key 的 hashcode 值摸運算（%）reduce 的數量，得到的數字就是“磁區號“，

11、MapReduce 出現單點負載多大，怎么負載平衡？

通過Partitioner實作

12、MapReduce 怎么實作 TopN？

可以自定義groupingcomparator，對結果進行最大值排序，然后再reduce輸出時，控制只輸出前n個數，就達到了topn輸出的目的，

13、Hadoop的快取機制（Distributedcache）是怎么樣的？

分布式快取一個最重要的應用就是在進行join操作的時候，如果一個表很大，另一個表很小，我們就可以將這個小表進行廣播處理，即每個計算節點上都存一份，然后進行map端的連接操作，經過我的實驗驗證，這種情況下處理效率大大高于一般的reduce端join，廣播處理就運用到了分布式快取的技術，
? DistributedCache將拷貝快取的檔案到Slave節點在任何Job在節點上執行之前，檔案在每個Job中只會被拷貝一次，快取的歸檔檔案會被在Slave節點中解壓縮，將本地檔案復制到HDFS中去，接著Client會通過addCacheFile() 和addCacheArchive()方法告訴DistributedCache在HDFS中的位置，當檔案存放到文地時，JobClient同樣獲得DistributedCache來創建符號鏈接，其形式為檔案的URI加fragment標識，當用戶需要獲得快取中所有有效檔案的串列時，JobConf 的方法 getLocalCacheFiles() 和getLocalArchives()都回傳一個指向本地檔案路徑物件陣列，

14、mapReduce如何實作兩個表的join?

1）reduce side join : 在map階段，map函式同時讀取兩個檔案File1和File2，為了區分兩種來源的key/value資料對，對每條資料打一個標簽（tag）,比如：tag=0 表示來自檔案File1，tag=2 表示來自檔案File2，
? 2）map side join : Map side join 是針對以下場景進行的優化：兩個待連接表中，有一個表非常大，而另一個表非常小，以至于小表可以直接存放到記憶體中，這樣，我們可以將小表復制多份，讓每個map task 記憶體中存在一份（比如存放到hash table 中），然后只掃描大表：對于大表中的每一條記錄key/value，在hash table 中查找是否有相同的key 的記錄，如果有，則連接后輸出即可，

15、什么樣的計算不適用mr來提速？

1）資料量很小
2）特別多的小檔案
3）特別頻繁的讀的時候，索引是更好的存取機制的時候
4）需要使用事務的時候
5）只有一臺機器的時候

16、更多大資料面試集錦

大資料書籍資料分享
大資料面試題集錦

本文來自博客園，作者：張飛的豬，轉載請注明原文鏈接：https://www.cnblogs.com/the-pig-of-zf/p/17517755.html

公眾號：張飛的豬大資料分享，不定期分享大資料學習的總結和相關資料，歡迎關注，

個人網站"張飛的豬編程作業室"鏈接: https://zhangfeidezhu.com

轉載請註明出處，本文鏈接：https://www.uj5u.com/shujuku/556449.html

標籤：大數據

上一篇：誰在以太坊區塊鏈上回圈交易？TuGraph+Kafka的0元流圖解決方案

下一篇：返回列表