我在BigQuery中有一个外部表,它从谷歌云存储的Avro文件中获取数据。我目前正在用蜂巢对数据进行日期划分,因为每个查询都会使用日期,重点是较新的数据。我正在考虑进一步按组织进行分区。
我没有找到很多关于分区方面的最佳做法的信息,以保持性能和保持低价。我的目标应该是保持较低的文件读取数量(即有少量较大的文件),还是应该保持BigQuery读取的字节数较低(更多、更小的文件和细粒度的分区策略)?或者,也许它更细微,有一个平衡点要保持?
我知道在不了解数据集和查询的情况下,这是一个棘手的问题,但我只想找到一个可以开始的地方,而不是只是猜测,后来不得不改变它。