文档首页> > 快速入门> 从零开始使用Hadoop
从零开始使用Hadoop

从零开始使用Hadoop

更新时间: 2019/05/17 09:37
  • MapReduce服务(MapReduce Service)提供租户完全可控的企业级大数据集群云服务,轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件 。

  • 本指南提供从零开始使用Hadoop分别在普通集群和安全集群提交wordcount作业的操作指导。wordcount是最经典的Hadoop作业,它用来统计海量文本的单词数量。

  • 购买集群 -> 准备Hadoop样例程序及数据文件 -> 上传数据至OBS -> 创建作业 -> 查看作业执行结果

Step1 购买集群

步骤

① 登录华为云控制台
② 选择“EI企业智能 > MapReduce服务”,进入MapReduce服务管理控制台。
③ 单击“购买集群”,进入“购买集群”页面。

1

MapReduce服务

申请虚拟私有云

2

购买MRS集群

申请弹性云服务器

单击图片可查看原图

Step2 配置集群信息

步骤

① 选择付费类型。
本示例中“计费模式”选择“按需计费”。
② 配置集群基本信息(参考右侧图片)。

当关闭 “Kerberos认证”时,将创建普通集群,可通过集群界面的作业管理功能提交作业,具体请参见Step6。
当开启“Kerberos认证”时,将创建安全集群,不能使用集群界面的作业管理功能,需要在集群后台提交作业,具体请参见Step7。

③ 配置集群的密码和高级配置(参考右侧图片)。
单击这里查看更多参数说明。
④ 配置完成后,在右下方单击“立即购买”。

1

配置集群基本信息-01

选择付费方式

2

配置集群基本信息-02

选择实例配置

3

配置集群密码和高级配置

选择实例配置

单击图片可查看原图

Step3 确认您的集群配置

步骤

确认信息无误后,并单击“提交申请”。系统将会自动为您创建集群。
MRS集群创建需要时间,所创集群的初始状态为“启动中”,创建成功后状态更新为“运行中”,请您耐心等待。

1

确认集群配置

获取实例连接地址

单击图片可查看原图

Step4 准备Hadoop样例程序及数据文件

步骤

① 准备wordcount程序。
可以从这里下载Hadoop样例程序(包括wordcount)。
例如选择hadoop-2.7.4.tar.gz,解压后在“hadoop-2.7.4\share\hadoop\mapreduce”路径下获取“hadoop-mapreduce-examples-2.7.4.jar”,即为Hadoop的样例程序。
② 准备数据文件。
数据文件无格式要求,准备2个txt文件即可。
示例为右图的wordcount1.txt和wordcount2.txt

1

样例程序

获取实例连接地址

单击图片可查看原图

Step5 上传数据至OBS

步骤

① 登录OBS控制台,单击“创建桶”,创建一个名称为mrs-word的桶。
② 单击mrs-word桶名称,进入“桶列表”页面,然后选择左侧导航栏“对象”,在“对象”页签下单击“新建文件夹”,分别新建program、input和log文件夹,如右图所示。
③ 进入program文件夹,上传Step4中下载的hadoop样例程序。
④ 进入input文件夹,上传Step4中准备的数据文件wordcount1.txt和wordcount2.txt 。
⑤若集群为普通集群,请执行Step6。
  若集群为安全集群,请执行Step7。

1

上传数据至OBS

获取实例连接地址

单击图片可查看原图

Step6 普通集群创建作业

步骤

① 登录MRS控制台,单击Step2中创建的集群名称,进入集群基本信息页面。
② 在集群信息页面选择“作业管理”页签,然后在“作业”页签中单击“添加”,进入添加作业页面。若在集群信息页面未找到作业管理页签,请参考Step7执行。
③ 按右图完成作业参数配置后,单击“确定”,提交作业。
作业提交成功后默认为“运行中”状态,不需要用户手动执行作业。
单击这里查看更多信息。
④进入“作业管理”页面,在“作业”页签,查看作业执行状态,然后进入Step8 查看作业执行结果。

1

创建作业

获取实例连接地址

2

查看作业执行状态

获取实例连接地址

单击图片可查看原图

Step7 安全集群创建作业

步骤

①登录MRS控制台,单击Step2中创建的集群名称,进入集群基本信息页面。
②在“节点信息”页签中单击某一Master节点名称,进入弹性云服务器管理控制台。
③单击页面右上角的“远程登录”。
④根据界面提示,输入Master节点的用户名和密码,用户名、密码分别为root和创建集群时设置的密码。
⑤执行source /opt/client/bigdata_env配置环境变量。
⑥执行kinit MRS集群用户命令认证集群当前用户,例如kinit admin。
⑦执行如下命令拷贝OBS桶中的样例程序到集群的Master节点。
hadoop fs -Dfs.s3a.access.key=AK -Dfs.s3a.secret.key=SK -copyToLocal source_path.jar target_path.jar
例如:hadoop fs -Dfs.s3a.access.key=XXXX -Dfs.s3a.secret.key=XXXX -copyToLocal "s3a://mrs-word/program/hadoop-mapreduce-examples-XXX.jar" "/home/omm/hadoop-mapreduce-examples-XXX.jar"
AK/SK可登录“OBS控制台”,请在集群控制台页面右上角的用户名下拉框中选择“我的凭证 > 管理访问密钥”页面获取。
⑧执行如下命令提交wordcount作业,如需从OBS读取或向OBS输出数据,需要增加AK/SK参数。
source /opt/client/bigdata_env;hadoop jar execute_jar wordcount input_path output_path
例如:source /opt/client/bigdata_env;hadoop jar /home/omm/hadoop-mapreduce-examples-XXX.jar wordcount -Dfs.s3a.access.key=XXXX -Dfs.s3a.secret.key=XXXX "s3a://mrs-word/input/*" "s3a://mrs-word/output/"
input_path为OBS上存放作业输入文件的路径。output_path为OBS上存放作业输出文件地址,请设置为一个不存在的目录。

1

登录Master节点

获取实例连接地址

单击图片可查看原图

Step8 查看作业执行结果

步骤

① 登录OBS控制台,进入mrs-word桶中output目录中,查看作业输出文件,需要下载到本地以文本方式打开进行查看。
② 进入mrs-word桶中log目录中根据ID查询作业执行详细日志信息,需要下载到本地以文本方式打开进行查看。

说明:普通集群的作业执行日志保存在对应OBS桶的log文件夹中,安全集群的作业执行日志在执行作业后直接输出在命令控制台界面。

1

查看作业执行结果

获取实例连接地址

2

查看作业执行日志

获取实例连接地址

单击图片可查看原图

相关操作指导

视频小图标 Created with Sketch.

MapReduce服务集群管理

视频小图标 Created with Sketch.

使用MRS Manager进行基本的集群管理务

视频小图标 Created with Sketch.

如何访问开源组件UI界面

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

在文档使用中是否遇到以下问题







请至少选择或填写一项反馈信息

字符长度不能超过100

反馈内容不能为空!

提交反馈 取消