主頁 > 後端開發 > java wordcount

java wordcount

2023-07-08 07:53:20 後端開發

import com.google.common.base.Splitter;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.VoidFunction;
import scala.Tuple2;
 
import java.util.Arrays;
import java.util.Iterator;
 
public class WordCount {
    public static void main(String[] args) {
        SparkConf sparkConf = new SparkConf().setAppName("WordCount").setMaster("local");
        JavaSparkContext sc = new JavaSparkContext(sparkConf);
        JavaRDD<String> lines = sc.textFile("file:/Users/zhudechao/gitee/bigdata/xzdream_spark/input/a.txt");
        JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
 
            @Override
            public Iterator<String> call(String line) throws Exception {
                return Arrays.asList(line.split(" ")).iterator();
            }
        });
 
        JavaPairRDD<String,Integer> pairRDD = words.mapToPair(new PairFunction<String, String, Integer>() {
            @Override
            public Tuple2<String, Integer> call(String word) throws Exception {
                return new Tuple2<String, Integer>(word,1);
            }
        });
 
        JavaPairRDD<String,Integer> wordCounts = pairRDD.reduceByKey(new Function2<Integer, Integer, Integer>() {
            @Override
            public Integer call(Integer v1, Integer v2) throws Exception {
                return v1 + v2;
            }
        });
 
        wordCounts.foreach(new VoidFunction<Tuple2<String, Integer>>() {
            @Override
            public void call(Tuple2<String, Integer> wordcount) throws Exception {
                System.out.println(wordcount._1 + ":"+wordcount._2);
            }
        });
    }
}
package com.huawei.mapreduce.wordcount;

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCountApp {
    public static class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable>{
        @Override
        protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, LongWritable>.Context context) throws IOException, InterruptedException {
            String line = value.toString();
            String[] splited = line.split("\t");
            for (String word : splited) {
                Text k2 = new Text(word);
                LongWritable v2 = new LongWritable(1);
                context.write(k2, v2);
            }
        }
    }

    public static class MyReducer extends Reducer<Text, LongWritable, Text, LongWritable>{
        @Override
        protected void reduce(Text k2, Iterable<LongWritable> v2s,
                              Reducer<Text, LongWritable, Text, LongWritable>.Context context) throws IOException, InterruptedException {
            long count = 0L;
            for (LongWritable times : v2s) {
                count += times.get();
            }
            LongWritable v3 = new LongWritable(count);
            context.write(k2, v3);
        }
    }

    public static void main(String[] args) throws Exception{
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf , WordCountApp.class.getSimpleName());
        //必須指定
        job.setJarByClass(WordCountApp.class);

        //指定本業務job要使用的Mapper業務類
        job.setMapperClass(MyMapper.class);
        //指定mapper輸出資料的<k2,v2>的型別
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(LongWritable.class);

        //指定本業務job要使用的Reducer業務類
        job.setReducerClass(MyReducer.class);
        //指定reducer輸出資料的<k3,v3>的型別
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LongWritable.class);

        //輸入資料來自哪里
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        //輸出資料寫到哪里
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        //true表示將運行進度等資訊及時輸出給用戶
        boolean res = job.waitForCompletion(true);
        System.exit(res?0:1);
    }
}

 

tar -zxvf jdk-8u341-linux-x64.tar.gz

wget https://hcip-materials.obs.cn-north-4.myhuaweicloud.com/jdk-8u341-linux-x64.tar.gz

scp ~/eclipse-workspace/HDFSAPI/target/HDFSAPI-jar-with-dependencies.jar [email protected]:/root

ssh root@xxx.xxx.xxx.xxx

yarn jar HDFSAPI-jar-with-dependencies.jar com.huawei.hdfs.IsFile
yarn jar HDFSAPI-jar-with-dependencies.jar com.huawei.hdfs.CreateFile1
yarn jar HDFSAPI-jar-with-dependencies.jar com.huawei.hdfs.IsFile
yarn jar HDFSAPI-jar-with-dependencies.jar com.huawei.hdfs.CreateFile1
yarn jar HDFSAPI-jar-with-dependencies.jar com.huawei.hdfs.CreateFile2
yarn jar HDFSAPI-jar-with-dependencies.jar com.huawei.hdfs.ScanFile /user/test/hdfs/file10.txt
yarn jar HDFSAPI-jar-with-dependencies.jar com.huawei.hdfs.ScanFile /user/test/hdfs/file11.txt
yarn jar HDFSAPI-jar-with-dependencies.jar com.huawei.hdfs.DeleteFile /user/test/hdfs/file10.txt
yarn jar HDFSAPI-jar-with-dependencies.jar com.huawei.hdfs.IsFile

yarn jar MRAPI-jar-with-dependencies.jar com.huawei.mapreduce.wordcount.WordCountApp /user/user1/MR_data /user/user1/MR_out

hdfs dfs -mkdir /user/user1
hdfs dfs -put MR_data /user/user1/

hdfs dfs -ls /user/user1/MR_out/
hdfs dfs -cat /user/user1/MR_out/part-r-00000

hdfs dfs -mkdir -p /user/user1/MR/input
hdfs dfs -mkdir -p /user/user1/MR/output

hdfs dfs -put mrsort.txt /user/user1/MR/input
hdfs dfs -ls /user/user1/MR/output
hdfs dfs -cat /user/user1/MR/output/part-r-00000
hdfs dfs -cat /user/user1/MR/output/part-r-00001
hdfs dfs -cat /user/user1/MR/output/part-r-00002

 

  

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/556773.html

標籤:其他

上一篇:【numpy基礎】--目錄(完結)

下一篇:返回列表

標籤雲
其他(162197) Python(38266) JavaScript(25527) Java(18291) C(15239) 區塊鏈(8275) C#(7972) AI(7469) 爪哇(7425) MySQL(7290) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5876) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4613) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2438) ASP.NET(2404) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) HtmlCss(1993) .NET技术(1986) 功能(1967) Web開發(1951) C++(1942) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1882) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • java wordcount

    import com.google.common.base.Splitter; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.j ......

    uj5u.com 2023-07-08 07:53:20 more
  • 【numpy基礎】--目錄(完結)

    # 概述 NumPy是一個開源的科學計算庫,它提供了高效的數值計算和陣列操作功能,主要包括: * 多維陣列的創建、操作和索引。 * 陣列的切片、拼接和轉置。 * 陣列的乘法、除法、求導、積分、對數等基本運算。 * 陣列的逐元素操作、求平均值、中位數、眾數等統計量。 * 陣列作為串列、元組等資料型別進 ......

    uj5u.com 2023-07-08 07:53:16 more
  • 在MAC OS上的vscode 安裝java開發環境

    在Mac OS上安裝vs code的java開發環境. 按照vs code的官方說明安裝Java相關插件, 遇見下列問題并解決了. 安裝JDK環境 安裝Extension Pack for Java 插件后,vscode會提示你安裝一個java,我安裝提示安裝了java.后來才發現安裝的是jre,并 ......

    uj5u.com 2023-07-08 07:53:12 more
  • 基于JavaFX的掃雷游戲實作(三)——互動邏輯

    相信閱讀過上期文章,動手能力強的朋友們已經自己跑出來界面了。所以這期我要講的是互動部分,也就是對于滑鼠點擊事件的回應,包括計時計數對點擊事件以及一些狀態量的影響。 回憶下第一期介紹的掃雷規則和操作,游戲從開局到結束可能會涉及到哪些情況呢?我認為比較重要的就是明確什么情況下游戲已經結束,結束代表的是勝 ......

    uj5u.com 2023-07-08 07:53:08 more
  • python multiprocessing庫使用記錄

    # python multiprocessing庫使用記錄 需求是想并行呼叫形式化分析工具proverif,同時發起對多個query的分析(378個)。實驗室有40核心80執行緒的服務器(雙cpu,至強gold 5218R*2)。 觀察到單個命令在分析時記憶體占用不大,且只使用單核心執行,因此考慮同時調 ......

    uj5u.com 2023-07-08 07:52:05 more
  • python:匯入庫、模塊失敗

    一般發生在程式開始部分: `from pymodbus.client.sync import ModbusSerialClient` `from pymodbus.payload import BinaryPayloadDecoder` `from pymodbus.constants import ......

    uj5u.com 2023-07-07 07:47:05 more
  • Java 構造器

    # Java 構造器 # 1. 構造器 ## 構造器也叫構造方法,是用來完成物件的初始化。 ## 構造器的定義: > ## 構造器的定義:[訪問修飾符] 方法名(形參),構造器與方法不同,并沒有回傳值,也不能寫void,訪問修飾符可以是不同的,方法名要與本類的類名相同 > > ## 構造器的呼叫是由 ......

    uj5u.com 2023-07-07 07:47:01 more
  • 《Effective C++ 改善程式與設計的55個具體做法》讀書筆記

    ### 1 .讓自己習慣C++ #### 條款01 視C++為一個語言聯邦 * `C` * `Object-Oriented C++` * `Template C++` * `STL` * `C++`高效編程守則視情況而變化,取決于你使用`C++`的哪一部分。 #### 條款02 盡量與const, ......

    uj5u.com 2023-07-07 07:46:56 more
  • Python中startswith()和endswith()方法

    **startswith()方法** startswith() 方法用于檢索字串是否以指定字串開頭,如果是回傳 True;反之回傳 False。 **endswith()方法** endswith() 方法用于檢索字串是否以指定字串結尾,如果是則回傳 True;反之則回傳 False ``` ......

    uj5u.com 2023-07-07 07:46:51 more
  • Python中os.system()、subprocess.run()、call()、check_output(

    ### 1.os.system() os.system() 是對 C 語言中 system() 系統函式的封裝,允許執行一條命令,并回傳退出碼(exit code),命令輸出的內容會直接列印到螢屏上,無法直接獲取。 示例: ```python # test.py import os os.syste ......

    uj5u.com 2023-07-07 07:46:47 more