【Mysql】大批量(百万级)数据插入数据库应该怎么做(提高效率)?

2年前 (2022) 程序员胖胖胖虎阿
191 0 0

一:在数据库中进行操作

1.合并sql语句(一个sql插入单条数据转为一个sql插入多条数据)

一个sql插入一条数据:

insert into table_name(id,name) values(1,"小明");
insert into table_name(id,name) values(2,"小红");

一个sql插入多条数据:

insert into table_name(id,name) values(1,"小明")(2,"小红");

 原因:合并后减少了日志生成量

2.在事务中进行插入操作

原因:单条sql执行时mysql内部会自动创建事务进行提交,所以通过自主创建事务,减少mysql执行sql时创建事务的消耗。 

3.有序插入

无序插入

inser into table_name(id,name) value(1,"小明");
inser into table_name(id,name) value(3,"小红");
inser into table_name(id,name) value(2,"小鹏");

有序插入

inser into table_name(id,name) value(1,"小明");
inser into table_name(id,name) value(2,"小鹏");
inser into table_name(id,name) value(3,"小红");

原因:无需插入会增大维护索引的成本

二:Java代码向数据库中插入数据

整体策略:通过多线程分批次对大量数据进行插入操作实现高效插入。

1.比如数据量为10w,将10w条数据分为10个1w条,然后通过创建多(10)个线程,对这10个1w数据进行插入操作。

2.通过遍历数据去进行插入操作实际上就是一条一条的插入,每执行一次insert就要向数据库传一条sql,数据库编译sql,然后执行,这里用的是Statement。这样做插入效率明显很低,所以我们需要采用批量插入大方式去进行,这里需要用到PreparedStatement两者的区别在文章末。

例:

Connection conn = DriverManager.getConnection();
conn.setAutoCommit(false);
PreparedStatement ps = conn.prepareStatement(   
   "INSERT into employees values (?, ?, ?)");   
for (n = 0; n < 10000; n++) {   
  ps.setString(name[n]);   
  ps.setLong(id[n]);   
  ps.setInt(salary[n]);   
  ps.addBatch(); //添加批处理  
}   
ps.executeBatch(); //执行批处理  

3.由上例可以看出每10000条数据进行一次事务的提交,也就是说事务的粗粒度太大,数据库每次面临一万条数据的插入,压力也会很大,所以我们可以再将上述案例进行优化,每一百条数据进行一次事务的提交。

4.最后如果想要查看数据库中已经插入的数据条数,通过执行sql语句效率也会比较低,可以通过在内存中设置一个n,来记录插入数据条数,当然,在多线程的情况下,需要对n进行加锁操作。

Statement和PreparedStatement的区别:

选择PreparedStatement还是Statement取决于你要怎么使用它们. 对于只执行一次的SQL语句选择Statement是最好的. 相反, 如果SQL语句被多次执行选用PreparedStatement是最好的.
PreparedStatement的第一次执行消耗是很高的. 它的性能体现在后面的重复执行. 

简单来说:

statement是每次执行都会向数据库发送sql,然后数据库进行预编译然后执行。

PreparedStatement是通过AddBatch()将多次执行操作都放在一起,然后再向数据库发送sql,然后数据库编译执行。

相关文章

暂无评论

暂无评论...