解决spark standalone模式 以cluster模式提交时找不到jar包问题
发布日期:2021-04-30 21:00:40
浏览次数:162
分类:精选文章
本文共 1061 字,大约阅读时间需要 3 分钟。
原submit提交脚本
#!/bin/bashspark-submit \ --class com.jxre.bigdata.sparks.SumIrradiateCalc \ --master spark://node1.sdp.cn:7077 \ --driver-memory 3G \ --deploy-mode cluster \ --supervise \ --executor-memory 12G \ --total-executor-cores 2\ --name SumIrradiateCalc \ --conf spark.sql.warehouse.dir=hdfs://node1.sdp.cn:8020/user/hive/warehouse \ /opt/spark/sparkapp.jar
错误提示
由于standalone模式下的集群环境,JAR文件必须通过HDFS共享。之前的脚本直接使用本地路径可能导致driver节点无法访问所需的JAR文件。
解决方案
步骤1:上传JAR文件到HDFS
以HDFS用户身份登录到集群:
su hdfs 创建所需的HDFS目录:
hadoop dfs -mkdir /sparkapp 将JAR文件上传到HDFS:
hadoop dfs -put /localpath/sparkapp.jar /sparkapp 步骤2:修改提交脚本
在提交脚本中,使用HDFS路径指向JAR文件:
#!/bin/bashspark-submit \ --class com.jxre.bigdata.sparks.SumIrradiateCalc \ --master spark://node1.sdp.cn:7077 \ --driver-memory 3G \ --deploy-mode cluster \ --supervise \ --executor-memory 12G \ --total-executor-cores 2\ --name SumIrradiateCalc \ --conf spark.sql.warehouse.dir=hdfs://node1.sdp.cn:8020/user/hive/warehouse \ hdfs://node1.sdp.cn:8020/sparkapp/sparkapp.jar 这样修改后,JAR文件将通过HDFS共享给集群中的所有节点,确保Spark任务能够顺利运行。
发表评论
最新留言
网站不错 人气很旺了 加油
[***.192.178.218]2026年06月09日 19时17分37秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!