MongoDB 最大文档大小

Mehvish Ashiq 2024年2月16日
MongoDB 最大文档大小

本教程描述了在 MongoDB 中存储文档的默认最大大小限制。如果数据超过大小限制,它还会教育替代解决方案。

我们还将了解如何有效使用 BSON 文档的默认最大大小限制。

MongoDB 最大文档大小

在 MongoDB 中,文档(对象)以 BSON 格式存储。BSON(Binary JSON)是类 JSON 文档的二进制序列化。

使用这种格式,我们可以使用不同的扩展来使用不属于 JSON 的数据类型的各种表示。

例如,我们在 BSON 中有一个 DateBinData 类型,这在 JSON 中不可用。根据 MongoDB 文档,单个 BSON 文档的大小限制为 16MB

我们有文档的最大大小限制,以确保一个文档在传输过程中不能使用不受限制的 RAM 量或带宽。请记住,我们可以将 BSON 文档嵌套多达 100 个级别,其中每个数组/对象添加一个级别。

在当今世界,我们周围都有数据。因此,我们的数据可能会增加 16 兆字节的 BSON 文档的大小限制。

在这种情况下,MongoDB 通过提供 GridFS API 来帮助我们存储大于 16MB 的文档。

什么是 GridFS API

GridFS 是一个 MongoDB 规范,我们可以使用它来存储和访问超过 BSON 文档限制 (16MB) 的大文件,例如音频、视频或图像文件。它类似于用于存储文件的文件系统,但数据存储在 MongoDB 集合中。

GridFS API 将文件分成块并将每个数据块存储在单独的文档中,其中每个文档的大小为 255KBGridFS 默认包含两个集合,fs.filesfs.chunks,存储文件的元数据和块。

每个块都由唯一的 _idObjectId)字段识别,而 fs.files 用作父文档。fs.chunks 文档中的 files_id 字段将块链接到其父级。

你可以通过 this 文章了解使用 GridFS 时的语法。

有效地使用默认 BSON 文档大小限制

BSON 文档大小限制 (16MB) 很大。例如,War of the Worlds 的整个未压缩文本只有 364k (HTML),但总是有例外。

如果你的数据超过限制,你可以使用我们之前讨论过的 GridFS API 或制定有效使用 16MB 的策略。

让我们有一个场景,我们想要开发一个 XYZ 应用程序。应用程序需要四种数据类型——Booleansnumbersstringsdates(表示为 UNIX ms)。

由于有 16MB 的大小限制,MongoDB 可以轻松存储大约 200 万个 64 位 数字值(日期布尔值 也是如此)。

在这里,string 类型值需要特别注意,因为每个 UTF-8 字符占用一个 byte。我们需要优化所有包含 string 类型值的列的大小。

我们可以尝试以下方法来减小具有 string 类型值的列的大小。

  1. 我们可以使用 stringify()zip() 方法作为 zip(JSON.stringify(column.values));

  2. 我们可以创建一个字典,并将所有唯一的 string 类型值插入到字典中。然后,用索引替换字符串值。

    如果我们在一个字段中有许多重复的字符串值,这种方法很有用。如果有人想存储一列哈希,这种方法将无济于事,但他们可以使用 GridFS API。

  3. 我们还可以将列拆分成不同的块,并将这些块保存在链接到主文档的其他一些文档中。

有一篇参考文章展示了所有这些方法。

作者: Mehvish Ashiq
Mehvish Ashiq avatar Mehvish Ashiq avatar

Mehvish Ashiq is a former Java Programmer and a Data Science enthusiast who leverages her expertise to help others to learn and grow by creating interesting, useful, and reader-friendly content in Computer Programming, Data Science, and Technology.

LinkedIn GitHub Facebook

相关文章 - MongoDB Document