相关文章推荐

有腹肌的卡布奇诺 · js ...· 3 周前 ·

无聊的莴苣 · 汪源：数据分析热词迭出，“三个统一”值得关注 ...· 3 周前 ·

愤怒的豆芽 · Apache Kyuubi 在 T3 ...· 3 周前 ·

有胆有识的泡面 · mySQL中怎么将dmp文件导入数据库开发者社区· 1 周前 ·

聪明伶俐的小马驹 · Linux下DM达梦数据库导入导出dmp文件 ...· 1 周前 ·

豪情万千的骆驼 · [WARNING]: provided ...· 1 年前 ·

玩篮球的手电筒 · stream流过滤去重取最新时间写法_str ...· 1 年前 ·

面冷心慈的人字拖 · js 不用parseFloat方法 ...· 1 年前 ·

文雅的炒饭 · Javascript解析excel文件 - ...· 1 年前 ·

斯文的电影票 · Traefik 2:让我们加密和 ...· 2 年前 ·

带水印的Spark结构化流重复数据删除系统

1 人关注

我想在一个ETL工作中使用Spark结构化流，每个事件都是有形式的。

"signature" : "uuid" , "timestamp: " 2020 -01 -01 00 : 00 : 00 ", " payload ": {...}

这些事件可能晚到30天，并且可能包括重复的事件。我想根据 "签名 "字段来删除它们。

如果我使用推荐的解决方案。

streamingDf \
  .withWatermark("timestamp", "30 days") \
  .dropDuplicates("signature", "timestamp")
  .write
它是否会跟踪（在内存中保持，存储等）整个事件内容的缓冲区（可能相当大），或者它将只跟踪 "签名 "字段的值？
另外，像上面这样的简单查询会在新数据到达时立即写入新事件，还是会 "阻塞 "30天？


         apache-spark


         pyspark


         spark-structured-streaming


        1
        
        个回答


          
           
           
            Michael Heil
           
          
          
           发布于
           
           2021-10-01


          已采纳


         0
         
         人赞同


          
           "它是否会跟踪（保留在内存中，存储等）整个事件内容的缓冲区（可能相当大），还是只跟踪 "签名 "字段的值？"
          
          
           是的，它将保留
           
            streamingDf
           
           的所有列，而不仅仅是签名和时间戳列。
          
          
           "另外，像上面这样的简单查询会在新数据到达时立即写入新事件，还是会 "阻塞 "30天？"

推荐文章

有腹肌的卡布奇诺 · js jquery-ajax/fetch请求时数据文本丢失加号和连接号的问题 - 深入学习ing

3 周前

无聊的莴苣 · 汪源：数据分析热词迭出，“三个统一”值得关注 - 网易数帆

3 周前

愤怒的豆芽 · Apache Kyuubi 在 T3 出行的深度实践 - 网易数帆

3 周前

有胆有识的泡面 · mySQL中怎么将dmp文件导入数据库开发者社区

1 周前

聪明伶俐的小马驹 · Linux下DM达梦数据库导入导出dmp文件实战演示，dexp和dimp命令详细使用方法-阿里云开发者社区

1 周前

豪情万千的骆驼 · [WARNING]: provided hosts list is empty, only localhost is available. Note that the implicit localho

1 年前

玩篮球的手电筒 · stream流过滤去重取最新时间写法_stream()过滤后获取最近一条-CSDN博客

1 年前

面冷心慈的人字拖 · js 不用parseFloat方法把科学计数法转换成数字 - CSDN文库

1 年前

文雅的炒饭 · Javascript解析excel文件 - worldly1013 - 博客园

1 年前

斯文的电影票 · Traefik 2:让我们加密和 HTTPS 重定向_docker_云O生-云原生

2 年前