相关文章推荐

气势凌人的花卷 · V2ray报错：failed to ...· 5 月前 ·

大力的弓箭 · MySQL InnoDB ...· 8 月前 ·

想发财的葡萄酒 · 漏洞扫描-Docker Remote ...· 9 月前 ·

打酱油的香槟 · CSS3 ...· 9 月前 ·

豪爽的帽子 · Go 中的结构体和 JSON 序列化 - 知乎· 1 年前 ·

spark hdfs get file size

在Spark中获取HDFS上文件的大小，可以使用Hadoop的FileSystem API来实现。具体步骤如下：

获取Spark的SparkContext对象，用于连接HDFS集群：

val sc = new SparkContext(new SparkConf().setAppName("HDFSFileSize"))
使用FileSystem API获取HDFS上的文件大小：
import org.apache.hadoop.fs.FileSystem
import org.apache.hadoop.fs.Path
val path = new Path("/path/to/file")
val fs = FileSystem.get(sc.hadoopConfiguration)
val fileSize = fs.getFileStatus(path).getLen()
其中，/path/to/file是你要获取大小的HDFS文件路径，fileSize是文件的大小（以字节为单位）。
这个方法返回的是Long类型，表示文件的大小，如果需要转换成MB或GB等其他单位，可以自行进行单位换算。
需要注意的是，在使用FileSystem API时，需要保证你的Spark集群和HDFS集群在同一网络中，或者使用相同的认证机制。如果两者不在同一网络中，或者使用不同的认证机制，你可能需要进行额外的配置。
希望这个回答能够帮助你解决问题。


    
     
      
       
        
         
         
          
           
            
             
             
             
              
               
               Spark
              
             
            
            
             
              
               
               
               
               
                从源码看Spark读取Hive表数据小文件和分块的问题
               
              
              
               
                
                 摘要: 使用Spark进行数据分析和计算早已成趋势，你是否关注过读取一张Hive表时Task数为什么是那么多呢？它跟什么有关系呢？ 最近刚好碰到这个问题，而之前对此有些模糊，所以做了些整理，希望大家拍砖探讨
                
               
              
              
               
                
                
                 3281
                
               
               
                
                 
                
                
                
               
              
             
            
            
             
              
               
               
               
               
                Spark(Streaming)写数据到文件-根据数据内容输出至不同自定义名称文件(saveAsHadoopFile和MultipleOutputFormt)
               
              
              
               
                
                  之前的Spark实时流处理的数据处理程序，要求把数据从kafka接收之后，分2路分别写入kafka和hdfs，写入kafka的部分之前已经有过总结，现在回过头来把之前的写入HDFS的地方重新总结一
                
               
              
              
               
                
                
                 637
                
               
               
                
                 
                
                
                 安第斯智能云
        Spark
                
               
              
             
            
            
             
              
               
               
               
               
                剖析Spark数据分区之Hadoop分片
               
              
              
               
                
                 本系列共三篇文章，敬请关注。 数据分析师通常会发出这样的疑问？我的任务之前通常半小时就能得出结果，现在要3个小时才能出结果。 针对这种问题，大数据运维工程师通常会说，数据量不一样，在资源相同的条件下，数据量多的任务肯定要比数据量少的任务执行时间长，可以适当把资源调整一下。 答案…
                
               
              
              
               
                
                
                 1993
                
               
               
                
                 
                
                
                 游龙975
        Spark
                
               
              
             
            
            
             
              
               
               
               
               
                Spark数据输入---RDD生成
               
              
              
               
                
                 Spark是如何加载外部数据源生成RDD的？ 从源码分析Spark Core加载外部数据源生成RDD的过程。
                
               
              
              
               
                
                
                 916
                
               
               
                
                 
                




    

                
                 NLPer
        Spark
                
               
              
             
            
            
             
              
               
               
               
               
                spark性能优化（一）
               
              
              
               
                
                 - 初始化配置给rdd和dataframe带来的影响 - repartition的相关说明 - cache&persist的相关说明 - 性能优化的说明建议以及实例
                
               
              
              
               
                
                
                 143
                
               
               
                
                 
                
                
                 stonezhu
        Spark
                
               
              
             
            
            
             
              
               
               
               
               
                Spark 中 File,Block,Split,Task,Partition,RDD概念的理解
               
              
              
               
                
                 1，在HDFS中会以Block为单位进行存储很多的File，也就是说每个File可能会被拆分成多个Block存储在HDFS上；2，当Spark读取HDFS上的文件作为输入时，会根据具体数据格式对应的I
                
               
              
              
               
                
                
                 1415
                
               
               
                
                 
                
                
                 安第斯智能云
        Spark
                
               
              
             
            
            
             
              
               
               
               
               
                剖析Spark数据分区之Spark RDD分区
               
              
              
               
                
                 该系列共分3篇文章，欢迎持续关注。 我们以Spark on Yarn为例阐述Spark运行原理。 决定数据分到哪个Partition，对于非key-value类型的RDD，Partitioner为None， 对应key-value类型的RDD，Partitioner默认为Has…
                
               
              
              
               
                
                
                 2868
                
               
               
                
                 
                
                
                 Spark
                
               
              
             
            
            
             
              
               
               
               
               
                Spark：java.io.IOException: Filesystem closed
               
              
              
               
                
                 java.io.IOException: Filesystem closed ，org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus
                
               
              
              
               
                
                
                 881
                
               
               
                
                 
                
                
                 我是个bug
        Spark
                
               
              
             
            
            
             
              
               
               
               
               
                【Spark 黑科技】梦寐以求的一站式 Spark 实验环境
               
              
              
               
                
                 一直希望能够深入的学习一下 Spark 相关的用法和原理，除了懒的原因之外，有一个重要的原因是实验环境的搭建太麻烦，光是 Spark 还好，但是用了 Spark 不用 HDFS 吗？Hive 呢？这样一来，有大量的时间倒会花在维护这个环境上，得不偿失。解决环境问题的杀器是什么？…
                
               
              
              
               
                
                
                 1638
                
               
               
                
                 
                
                
                 朝阳GAI爷
        React.js
                
               
              
             
            
            
             
              
               
               
               
               
                Spark 2.4.0编程指南--spark dataSet action
               
              
              
               
                
                 Spark2.4.0编程指南--sparkdataSetaction更多资源github:https://github.com/opensourceteams/spark-scala-maven-2.
                
               
              
              
               
                
                
                 1271

推荐文章

气势凌人的花卷 · V2ray报错：failed to process outbound traffic ＞ failed to read response header ＞ websocket: close 1000-

5 月前

大力的弓箭 · MySQL InnoDB 修改表列Online DDL - 悠悠uusama - 博客园

8 月前

想发财的葡萄酒 · 漏洞扫描-Docker Remote API 未授权访问漏洞利用_访问 docker 服务api接口,不进行身份验证即可操作api接口-CSDN博客

9 月前

打酱油的香槟 · CSS3 border-bottom-left-radius 属性 | 菜鸟教程

9 月前

豪爽的帽子 · Go 中的结构体和 JSON 序列化 - 知乎

1 年前

今天看啥 · Py中国 · codingpro · 藏经阁 · 小百科 · link之家 · 卧龙AI搜索

删除内容请联系邮箱 2879853325@qq.com

Code - 代码工具平台

© 2024 ~ 沪ICP备11025650号