sparkconf参数设置

在Spark中，可以通过 SparkConf 对象来设置运行Spark应用程序的一系列参数，包括应用程序名、运行模式、数据源等等。

下面是一些常用的 SparkConf 参数设置：


       spark.app.name

-- 应用程序名，在Spark的Web UI和日志中显示；


       spark.master

-- 运行模式，通常设置为


       local[*]

表示在本地模式运行，也可以设置为


       yarn

、


       mesos

等分布式模式；


       spark.executor.memory

-- 每个Executor的内存大小，默认为1g；


       spark.serializer

-- 序列化方式，默认使用Java序列化，可以设置为


       Kryo

等其他序列化类库；


       spark.sql.shuffle.partitions

-- Spark SQL中shuffle操作的分区数，默认为200；


       spark.default.parallelism

-- 默认并行度，通常设置为CPU核心数的2-3倍。

这些参数可以通过 SparkConf 对象的 set 方法来进行设置，例如：

from pyspark import SparkConf
conf = SparkConf()
conf.set("spark.app.name", "MyApp")
conf.set("spark.executor.memory", "2g")
conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
最后，可以将SparkConf对象传递给SparkSession.builder.config方法来创建SparkSession对象：
from pyspark.sql import SparkSession
spark = SparkSession.builder.config(conf=conf).getOrCreate()
              Angryshark128
          Spark


     
      
       
       
       
        
        
         Spark参数调优实践
        
       
      
      
       
        
         
          
           参数设置方法 Spark任务在提交时，可以通过以下几种方式进行参数设置： 环境变量 通过配置文件spark-env.sh添加，如 这种参数设置是全局的，并不适合所有任务，因而可以当作默认的来使用
          
         
        
        
         
          
           
            泡泡的泡泡
          Spark
           
          
         
        
       
       
        
         
         
         
          
          
           spark conf 配置优化
          
         
        
        
         
          
           
            
             一、背景 spark版本：2.3.1 scala版本：2.11.8 二、conf配置说明 选项 值 说明 组合 spark.sql.crossJoin.enabled true 值为true时，sql
            
           
          
          
           
            
             
              XinXing
          Spark
             
            
           
          
         
         
          
           
           
           
            
            
             spark-submit 参数详解
            
           
          
          
           
            
             
              
               cluster：Driver端在Yarn分配的ApplicationMaster上启动一个Driver。与其他Excute交互 JARS：你程序依赖的jar包。如果有多个用,分隔 个别作业需要单独设置spark-conf参数，就在这里加。有10个就--conf十次 程序所依赖的…
              
             
            
            
             
              
               
                Spark
               
              
             
            
           
           
            
             
             
             
              
              
               大数据培训：Spark性能调优与参数配置
              
             
            
            
             
              
               
                
                 Spark性能调优-基础篇 众所周知，正确的参数配置对提升Spark的使用效率具有极大助力，帮助相关数据开发、分析人员更高效地使用Spark进行离线批处理和SQL报表分析等作业。 推荐参数配置模板如下
                
               
              
              
               
                
                 
                  技术洞察TIC
          Spark
                 
                
               
              
             
             
              
               
               
               
                
                
                 Spark Shuffle 专业级核心参数调优源码深入剖析-Spark商业环境实战
                
               
              
              
               
                
                 
                  
                   本套系列博客从真实商业环境抽取案例进行总结和分享，并给出Spark商业应用实战指导，请持续关注本套博客。 参数说明：该参数用于设置shuffle read task的buffer缓冲大小，而这个buffer缓冲决定了每次能够拉取多少数据。 调优建议：如果作业可用的内存资源较为充…
                  
                 
                
                
                 
                  
                   
                    Spark
                   
                  
                 
                
               
               
                
                 
                 
                 
                  
                  
                   Spark | 关于Spark常用31个transform算子代码总结以及使用方法介绍
                  
                 
                
                
                 
                  
                   
                    
                     一.Transform类型算子1.1Value类型1.1.1map算子代码:1.1.2mapParatition算子代码:1.1.3mapPartitionsWithIndex算子代码:1.1.4fl
                    
                   
                  
                  
                   
                    
                     
                      技术洞察TIC
          Spark
                     
                    
                   
                  
                 
                 
                  
                   
                   
                   
                    
                    
                     Spark资源调度参数调优深入剖析-Spark商业调优实战
                    
                   
                  
                  
                   
                    
                     
                      
                       本套系列博客从真实商业环境抽取案例进行总结和分享，并给出Spark商业应用实战指导，请持续关注本套博客。 参数说明：该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时，YARN集群管理器会尽可能按照你的设置来在集群…
                      
                     
                    
                    
                     
                      
                       
                        脑子进水养啥鱼
                       
                      
                     
                    
                   
                   
                    
                     
                     
                     
                      
                      
                       postgresql.conf 参数设置之 IO篇
                      
                     
                    
                    
                     
                      
                       
                        
                         参考了阿里云最佳实践，和 postgresql 官方手册，研究学习设置 postgresql.conf 参数。（下列只列出需要修改的参数，默认值即为合适值的没有列出。）
                        
                       
                      
                      
                       
                        
                         
                          技术洞察TIC
          Spark
                         
                        
                       
                      
                     
                     
                      
                       
                       
                       
                        
                        
                         Spark Shuffle 过程参数优化深入剖析-Spark商业调优实战
                        
                       
                      
                      
                       
                        
                         
                          
                           本套系列博客从真实商业环境抽取案例进行总结和分享，并给出Spark商业应用实战指导，请持续关注本套博客。 参数说明：该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前，会先写入buffer缓…
                          
                         
                        
                        
                         
                          
                           
                            脑子进水养啥鱼
                           
                          
                         
                        
                       
                       
                        
                         
                         
                         
                          
                          
                           postgresql.conf 参数设置之 日志篇
                          
                         
                        
                        
                         
                          
                           
                            
                             参考了阿里云最佳实践，和 postgresql 官方手册，研究学习设置 postgresql.conf 参数。（下列只列出需要修改的参数，默认值即为合适值的没有列出。）