更新时间:2022-07-19 GMT+08:00

场景说明

场景说明

假定Hive的person表存储用户当天消费的金额信息,HBase的table2表存储用户历史消费的金额信息。

现person表有记录name=1,account=100,表示用户1在当天消费金额为100元。

table2表有记录key=1,cf:cid=1000,表示用户1的历史消息记录金额为1000元。

基于某些业务要求,要求开发Spark应用程序实现如下功能:

根据用户名累计用户的历史消费金额,即用户总消费金额=100(用户当天的消费金额) + 1000(用户历史消费金额)。

上例所示,运行结果table2表用户key=1的总消费金融为cf:cid=1100元。

数据规划

在开始开发应用前,需要创建Hive表,命名为person,并插入数据。同时,创建HBase table2表,用于将分析后的数据写入。

  1. 将原日志文件放置到HDFS系统中。

    1. 在本地新建一个空白的log1.txt文件,并在文件内写入如下内容。
      1,100
    2. 在HDFS中新建一个目录/tmp/input,并将log1.txt文件上传至此目录。
      1. 在HDFS客户端,执行如下命令获取安全认证。

        cd /opt/client

        kinit -kt '/opt/client/Spark/spark/conf/user.keytab' <用于认证的业务用户>

        user.keytab文件位置请根据自己实际路径填写。

      2. 在Linux系统HDFS客户端使用命令hadoop fs -mkdir /tmp/input(hdfs dfs命令有同样的作用),创建对应目录。
      3. 在Linux系统HDFS客户端使用命令hadoop fs -put log1.txt /tmp/input,上传数据文件。

  2. 将导入的数据放置在Hive表里。

    首先,确保ThriftServer已启动。然后使用Beeline工具,创建Hive表,并插入数据。

    1. 执行如下命令,创建命名为person的Hive表。

      create table person

      (

      name STRING,

      account INT

      )ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ESCAPED BY '\\' STORED AS TEXTFILE;

    2. 执行如下命令插入数据。

      load data inpath '/tmp/input/log1.txt' into table person;

  3. 创建HBase表。

    1. 通过HBase创建名为table2的表,命令如下。

      create 'table2', 'cf'

    2. 通过HBase插入数据,执行如下命令。

      put 'table2', '1', 'cf:cid', '1000'

    如果开启了kerberos认证,需要将客户端的配置文件“spark-default.conf”和sparkJDBC服务端中的配置项spark.yarn.security.credentials.hbase.enabled置为true。

开发思路

  1. 查询Hive person表的数据。
  2. 根据person表数据的key值去table2表做查询。
  3. 把前两步相应的数据记录做相加操作。
  4. 把上一步骤的结果写到table2表。