让我们看一个示例,展示在内存消耗方面,采用流的编程思路带来的巨大优越性。
我们先创建一个大文件:
const fs = require('fs');
const file = fs.createWriteStream('./big.file');
for(let i=0; i<= 1e6; i++) {
file.write('this is a big file.\n');
}
file.end();
fs 模块可用于使用流接口读取和写入文件。 在上面的示例中,我们通过一个循环写入 100 万行的可写流,向该 big.file 写入数据。
运行上面的代码会生成一个大约 400 MB 的文件。
这是一个简单的 Node Web 服务器,旨在专门为 big.file 提供服务:
const fs = require('fs');
const server = require('http').createServer();
server.on('request', (req, res) => {
fs.readFile('./big.file', (err, data) => {
if (err) throw err;
res.end(data);
});
});
server.listen(8000);
启动该服务器,其消耗的初始内存为 8 MB 左右。
使用浏览器访问服务器之后,内存消耗跃升至 434.8 MB。
我们基本上将整个 big.file 内容放在内存中,然后再将其写入响应对象。 这是非常低效的。
HTTP 响应对象(上面代码中的 res)也是一个可写流。 这意味着如果我们有一个表示 big.file 内容的可读流,我们可以将这两个相互连接起来,并在不消耗约 400 MB 内存的情况下获得几乎相同的结果。
Node 的 fs 模块可以使用 createReadStream 方法为我们提供任何文件的可读流。 我们可以将其通过管道传递给响应对象:
const fs = require('fs');
const server = require('http').createServer();
server.on('request', (req, res) => {
const src = fs.createReadStream('./big.file');
src.pipe(res);
});
server.listen(8000);
我们现在访问上述重新实现过的服务器,发现内存消耗量大大降低了。
这是因为,当客户端请求该大文件时,我们一次将其流式传输一个块,这意味着我们根本不会将其整个的庞大文件内容缓冲在内存中。 内存使用量增加了大约 25 MB,仅此而已。
我们可以把测试场景设计得更极端一些:用 500 万行而不是 100 万行重新生成 big.file,这将使文件超过 2 GB,这实际上大于 Node.js 中的默认缓冲区限制。
如果尝试使用 fs.readFile 提供该文件,则默认情况下会出现 out of memory 的错误。
但是使用 fs.createReadStream,将 2 GB 的数据流式传输到请求者完全没有问题,而且最重要的是,进程内存使用情况大致相同。