![]() |
悲伤的橙子 · python - ResultSet ...· 1 年前 · |
![]() |
爱笑的感冒药 · c# 圆上坐标点 - Ace001 - 博客园· 1 年前 · |
![]() |
千杯不醉的松鼠 · ROS的目录文件结构 - 知乎· 1 年前 · |
![]() |
星星上的苦咖啡 · initializer element ...· 2 年前 · |
![]() |
纯真的橙子 · pyscenic ctx --help - 简书· 2 年前 · |
我最近启动了一个数据流作业,从GCS加载数据,通过DLP的标识模板运行它,并将屏蔽的数据写入BigQuery。我找不到谷歌提供的用于批处理的模板,因此使用了流模板(参考: link )。我看到只有50%的行被写入目标BigQuery表。管道上有一天没有任何活动,即使它处于运行状态。
是的,DLP数据流模板是一个流管道,但通过一些简单的更改,您也可以将其用作批处理。这是模板 source code 。正如您所看到的,它使用 File IO transform 并每隔30秒轮询/监视任何新文件。如果您去掉了窗口转换和连续轮询语法,您应该能够以批处理的方式执行。
关于管道没有处理所有数据,您能确认您是否正在使用默认设置运行一个大文件吗?例如: workerMachineType、numWorkers、maxNumWorkers?当前的流水线代码使用基于行的偏移量,如果输入文件很大,则需要具有大量工作线程的highmem机器类型。例如,对于10 GB、80M的线路,您可能需要5个highmem工作者。
有一件事你可以试着看看它是否有帮助,那就是用更多的资源触发管道,例如:--workerMachineType=n1-highmem-8,numWorkers=10,maxNumWorkers=10,看看它是否更好。
或者,有一个使用 state and timer API 的基于字节的偏移量的 V2 solution ,用于优化批处理和资源利用率,您可以试用它。
Copyright © 2013 - 2023 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号: 粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
扫码关注腾讯云开发者
领取腾讯云代金券
![]() |
爱笑的感冒药 · c# 圆上坐标点 - Ace001 - 博客园 1 年前 |
![]() |
千杯不醉的松鼠 · ROS的目录文件结构 - 知乎 1 年前 |
![]() |
纯真的橙子 · pyscenic ctx --help - 简书 2 年前 |