Spring Boot:将JPA批量插入性能提高100倍
是否想改善您的插入记录?在本文中,您可以学习如何使用Spring Data JPA将批量插入性能提高100倍。
我遇到了一个问题,我想将数百万条记录插入数据库,而这需要从文件中导入。
因此,我对此进行了一些研究,并希望与您分享我发现的发现,这些发现帮助我将插入记录的吞吐量提高了近100倍。
最初,当我只是尝试使用spring JPA的saveAll方法进行批量插入时,每10,000条记录获得约185秒的性能。在执行以下更改之后,插入10,000条记录的性能仅需4.3秒。
是的,每10k记录4.3秒。
因此,要实现这一点,我必须更改插入数据的方式。
1.插入时更改记录数
最初插入时,我是通过调用saveAll方法直接推送列表中的所有10k记录。我将其更改为30的批处理大小。您也可以将批处理大小增加到甚至60,但是这并不是插入记录所花费的时间的一半。请参阅下表。
为此,您需要设置hibernate属性batch_size=30。
spring.jpa.properties.hibernate.jdbc.batch_size=30
cachePrepStmts=true
useServerPrepStmts=true
rewriteBatchedStatements=true
jdbc:mysql://localhost:3306/BOOKS_DB?serverTimezone=UTC&cachePrepStmts=true&useServerPrepStmts=true&rewriteBatchedStatements=true
2.发送批处理记录
接下来,我更改了插入代码,以便saveAll按照我们也在属性文件中设置的方法,使方法的批处理大小为30。像这样的非常粗略的实现:
for (int i = 0; i < totalObjects; i = i + batchSize) {
if( i+ batchSize > totalObjects){
List<Book> books1 = books.subList(i, totalObjects - 1);
repository.saveAll(books1);
break;
List<Book> books1 = books.subList(i, i + batchSize);
repository.saveAll(books1);
}
这减少了一点时间。它从185秒降低到153秒。大约提高了18%。
3.更改ID生成策略
这产生了重大影响。
最初,我在@GeneratedValue策略GenerationType.IDENTITY上使用注释,即在我的实体类上。
Hibernate使用此策略禁用了批量更新,因为它必须进行选择调用才能从数据库中获取ID以插入每一行。您可以在此处了解更多信息。
我将策略更改为SEQUENCE并提供了序列生成器。
public class Book {
@GeneratedValue(strategy = SEQUENCE, generator = "seqGen")