大数据实验报告总结编程题 第1篇
解决方案(列出遇到的问题和解决办法,列出没有解决的问题):
图8:第一个实验的输入文件夹input当中的内容
上传输入文本到HDFS的时候,input文件夹还遗留了一个文本文件没有删除,导致这三个文本进行了合并操作,删除该文件后再运行java程序输出结果正确。
再次运行程序,如果不删除上一次运行结束后的输出文件夹,就报错,每次手动去删除输出文件夹简直太麻烦了。在run()方法或者main()方法(视个人程序结构而定)中加入如下代码就可以让程序在运行时先自动删除与设定的输出文件夹同名的文件夹。
希望大家适当的利用。
大数据实验报告总结编程题 第2篇
对于两个输入文件,即文件 A 和文件 B,请编写 MapReduce 程序,对两个文件进行合并,
并剔除其中重复的内容,得到一个新的输出文件 C。下面是输入文件和输出文件的一个样例 供参考。
输入文件 A 的样例如下:
20170101 x
20170102 y
20170103 x
20170104 y
20170105 z
20170106 x
输入文件 B 的样例如下:
20170101 y
20170102 y
20170103 x
20170104 z
20170105 y
根据输入文件 A 和 B 合并得到的输出文件 C 的样例如下:
20170101 x
20170101 y
20170102 y
20170103 x
20170104 y
20170104 z
20170105 y
20170105 z
20170106 x
大数据实验报告总结编程题 第3篇
图1:文件合并去重java运行结果
图2:文件合并输出结果
现在有多个输入文件,每个文件中的每行内容均为一个整数。要求读取所有文件中的整
数,进行升序排序后,输出到一个新的文件中,输出的数据格式为每行两个整数,第一个数
字为第二个整数的排序位次,第二个整数为原待排列的整数。下面是输入文件和输出文件的
一个样例供参考。
输入文件 1 的样例如下:
33
37
12
40
输入文件 2 的样例如下:
16
39
输入文件 3 的样例如下:
45
25
根据输入文件 1、2 和 3 得到的输出文件如下:
1 1
2 4
3 5
4 12
5 16
6 25
7 33
54
8 37
9 39
10 40
11 45