【Mysql】大批量(百万级)数据插入数据库应该怎么做(提高效率)？

3年前 (2022) 程序员胖胖胖虎阿

237 0 0

一：在数据库中进行操作

1.合并sql语句(一个sql插入单条数据转为一个sql插入多条数据)

一个sql插入一条数据：
insert into table_name(id,name) values(1,"小明");
insert into table_name(id,name) values(2,"小红");
一个sql插入多条数据:
insert into table_name(id,name) values(1,"小明")(2,"小红");
原因：合并后减少了日志生成量

2.在事务中进行插入操作

原因：单条sql执行时mysql内部会自动创建事务进行提交，所以通过自主创建事务，减少mysql执行sql时创建事务的消耗。

3.有序插入

无序插入

inser into table_name(id,name) value(1,"小明");
inser into table_name(id,name) value(3,"小红");
inser into table_name(id,name) value(2,"小鹏");

有序插入

inser into table_name(id,name) value(1,"小明");
inser into table_name(id,name) value(2,"小鹏");
inser into table_name(id,name) value(3,"小红");

原因：无需插入会增大维护索引的成本

二：Java代码向数据库中插入数据

整体策略：通过多线程分批次对大量数据进行插入操作实现高效插入。

1.比如数据量为10w，将10w条数据分为10个1w条，然后通过创建多（10）个线程，对这10个1w数据进行插入操作。

2.通过遍历数据去进行插入操作实际上就是一条一条的插入，每执行一次insert就要向数据库传一条sql，数据库编译sql，然后执行，这里用的是Statement。这样做插入效率明显很低，所以我们需要采用批量插入大方式去进行，这里需要用到PreparedStatement。两者的区别在文章末。

例：
Connection conn = DriverManager.getConnection();
conn.setAutoCommit(false);
PreparedStatement ps = conn.prepareStatement(   
   "INSERT into employees values (?, ?, ?)");   
for (n = 0; n < 10000; n++) {   
  ps.setString(name[n]);   
  ps.setLong(id[n]);   
  ps.setInt(salary[n]);   
  ps.addBatch(); //添加批处理  
}   
ps.executeBatch(); //执行批处理  
3.由上例可以看出每10000条数据进行一次事务的提交，也就是说事务的粗粒度太大，数据库每次面临一万条数据的插入，压力也会很大，所以我们可以再将上述案例进行优化，每一百条数据进行一次事务的提交。

4.最后如果想要查看数据库中已经插入的数据条数，通过执行sql语句效率也会比较低，可以通过在内存中设置一个n，来记录插入数据条数，当然，在多线程的情况下，需要对n进行加锁操作。

Statement和PreparedStatement的区别：

选择PreparedStatement还是Statement取决于你要怎么使用它们. 对于只执行一次的SQL语句选择Statement是最好的. 相反, 如果SQL语句被多次执行选用PreparedStatement是最好的.
PreparedStatement的第一次执行消耗是很高的. 它的性能体现在后面的重复执行.

简单来说：

statement是每次执行都会向数据库发送sql，然后数据库进行预编译然后执行。

PreparedStatement是通过AddBatch()将多次执行操作都放在一起，然后再向数据库发送sql，然后数据库编译执行。