解决spark standalone模式以cluster模式提交时找不到jar包问题-白红宇的个人博客

解决spark standalone模式以cluster模式提交时找不到jar包问题

发布日期：2021-04-30 21:00:40 浏览次数：162 分类：精选文章

本文共 1061 字，大约阅读时间需要 3 分钟。

原submit提交脚本

#!/bin/bashspark-submit \  --class com.jxre.bigdata.sparks.SumIrradiateCalc \  --master spark://node1.sdp.cn:7077 \  --driver-memory 3G \  --deploy-mode cluster \  --supervise \  --executor-memory 12G \  --total-executor-cores 2\  --name SumIrradiateCalc \  --conf spark.sql.warehouse.dir=hdfs://node1.sdp.cn:8020/user/hive/warehouse \  /opt/spark/sparkapp.jar

错误提示

由于standalone模式下的集群环境，JAR文件必须通过HDFS共享。之前的脚本直接使用本地路径可能导致driver节点无法访问所需的JAR文件。

解决方案

步骤1：上传JAR文件到HDFS

以HDFS用户身份登录到集群：

su hdfs

创建所需的HDFS目录：

hadoop dfs -mkdir /sparkapp

将JAR文件上传到HDFS：

hadoop dfs -put /localpath/sparkapp.jar /sparkapp

步骤2：修改提交脚本

在提交脚本中，使用HDFS路径指向JAR文件：

#!/bin/bashspark-submit \ --class com.jxre.bigdata.sparks.SumIrradiateCalc \ --master spark://node1.sdp.cn:7077 \ --driver-memory 3G \ --deploy-mode cluster \ --supervise \ --executor-memory 12G \ --total-executor-cores 2\ --name SumIrradiateCalc \ --conf spark.sql.warehouse.dir=hdfs://node1.sdp.cn:8020/user/hive/warehouse \ hdfs://node1.sdp.cn:8020/sparkapp/sparkapp.jar

这样修改后，JAR文件将通过HDFS共享给集群中的所有节点，确保Spark任务能够顺利运行。

上一篇：Leetcode--152. 乘积最大子序列

下一篇：Class类

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！