本文共 330 字,大约阅读时间需要 1 分钟。
InputFormat:
从文件中读取数据,转化成key-value格式。
对于常用的数据类型,hadoop已经有了这个接口的实现。
特殊文件格式的话,只有你自己知道怎么读取这种文件格式,你可以自己来定义。
method:
1. get InputSplit
框架调用此方法获得有几个逻辑块,
这样就知道需要多少个mapper了,
数据产生地点产生Mapper的实例。
2.create RecordReader
很明显此方法就是用来读记录的,调用此方法一条一条的读记录。
转化成key-value,送给Mapper。
outputFormat:
给你个key-value,怎么写出去你来决定。
如果目标目录里有已有目录了,他不希望把你已有的数据冲掉,会报错。
转载地址:http://ewvws.baihongyu.com/