Spring Boot:将JPA批量插入性能提高100倍

是否想改善您的插入记录?在本文中,您可以学习如何使用Spring Data JPA将批量插入性能提高100倍。

我遇到了一个问题,我想将数百万条记录插入数据库,而这需要从文件中导入。

因此,我对此进行了一些研究,并希望与您分享我发现的发现,这些发现帮助我将插入记录的吞吐量提高了近100倍。

最初,当我只是尝试使用spring JPA的saveAll方法进行批量插入时,每10,000条记录获得约185秒的性能。在执行以下更改之后,插入10,000条记录的性能仅需4.3秒。

是的,每10k记录4.3秒。

因此,要实现这一点,我必须更改插入数据的方式。

1.插入时更改记录数

最初插入时,我是通过调用saveAll方法直接推送列表中的所有10k记录。我将其更改为30的批处理大小。您也可以将批处理大小增加到甚至60,但是这并不是插入记录所花费的时间的一半。请参阅下表。

为此,您需要设置hibernate属性batch_size=30。

spring.jpa.properties.hibernate.jdbc.batch_size=30
cachePrepStmts=true
useServerPrepStmts=true
rewriteBatchedStatements=true
jdbc:mysql://localhost:3306/BOOKS_DB?serverTimezone=UTC&cachePrepStmts=true&useServerPrepStmts=true&rewriteBatchedStatements=true

2.发送批处理记录

接下来,我更改了插入代码,以便saveAll按照我们也在属性文件中设置的方法,使方法的批处理大小为30。像这样的非常粗略的实现:

for (int i = 0; i < totalObjects; i = i + batchSize) {
    if( i+ batchSize > totalObjects){
        List<Book> books1 = books.subList(i, totalObjects - 1);
        repository.saveAll(books1);
        break;
    List<Book> books1 = books.subList(i, i + batchSize);
    repository.saveAll(books1);
}

这减少了一点时间。它从185秒降低到153秒。大约提高了18%。

3.更改ID生成策略

这产生了重大影响。

最初,我在@GeneratedValue策略GenerationType.IDENTITY上使用注释,即在我的实体类上。

Hibernate使用此策略禁用了批量更新,因为它必须进行选择调用才能从数据库中获取ID以插入每一行。您可以在此处了解更多信息。

我将策略更改为SEQUENCE并提供了序列生成器。

public class Book {
    @GeneratedValue(strategy = SEQUENCE, generator = "seqGen")