相关文章推荐
重感情的单车  ·  itunes彻底卸载或重新安装常见问题都可解 ...·  5 月前    · 
老实的皮带  ·  上汽集团官网·  1 年前    · 
幸福的草稿本  ·  增城首个小区图书馆分馆——御溪世家分馆开馆啦 ...·  1 年前    · 
急躁的吐司  ·  温州市惠企政策“直通车” - ...·  1 年前    · 
温暖的西瓜  ·  舌尖上的红色记忆丨来金寨一定要吃一次将军宴!·  2 年前    · 
Code  ›  pyspark On Yarn 的模块依赖问题 - 疯狂的小萝卜头
博客园 yarn
https://www.cnblogs.com/gmhappy/p/13457013.html
爱搭讪的皮带
1 年前
# -*- coding: utf-8 -*-
from pyspark import SparkContext
from dependency.mydata import data  # 自己写的模块
# 获取spark的上下文
sc = SparkContext()
sc.setLogLevel('WARN')
out = sc.parallelize(data)
print(out.collect())
# out是RDD格式需调用.toDF()转为spark.dataFrame格式
df = out.toDF()
df.show()
out.saveAsTextFile("hdfs://s0:8020/input/text")

自定义模块打压缩包

[root@S0 ~]# cd /root
[root@S0 ~]# cd dependency
[root@S0 dependency]# ls
__init__.py  mydata.py
[root@S0 dependency]# cd ../
[root@S0 ~]# zip -r dep.zip dependency/
  adding: dependency/ (stored 0%)
  adding: dependency/mydata.py (stored 0%)
  adding: dependency/__init__.py (stored 0%)
spark-submit --master yarn --deploy-mode cluster --py-files /root/dep.zip /root/Demo6.py

注:压缩文件必须是全路径,即使它在 PYTHONPATH 环境变量内,不写全路径也会报错 file do not exist

--py-files
它是 spark-submit 的参数,官方解释如下:
Comma-separated list of .zip, .egg, or .py files to place on the PYTHONPATH for Python apps.
用逗号分隔的 zip、egg、py 文件列表来代替 PYTHONPATH 环境变量

参照:https://www.cnblogs.com/yanshw/p/12083488.html

 
推荐文章
重感情的单车  ·  itunes彻底卸载或重新安装常见问题都可解决2018-百度经验
5 月前
老实的皮带  ·  上汽集团官网
1 年前
幸福的草稿本  ·  增城首个小区图书馆分馆——御溪世家分馆开馆啦!-广州市增城区人民政府门户网站
1 年前
急躁的吐司  ·  温州市惠企政策“直通车” - 温州市产业政策奖励兑现系统
1 年前
温暖的西瓜  ·  舌尖上的红色记忆丨来金寨一定要吃一次将军宴!
2 年前
今天看啥   ·   Py中国   ·   codingpro   ·   小百科   ·   link之家   ·   卧龙AI搜索
删除内容请联系邮箱 2879853325@qq.com
Code - 代码工具平台
© 2024 ~ 沪ICP备11025650号