MongoDB 最大文档大小
本教程描述了在 MongoDB 中存储文档的默认最大大小限制。如果数据超过大小限制,它还会教育替代解决方案。
我们还将了解如何有效使用 BSON 文档的默认最大大小限制。
MongoDB 最大文档大小
在 MongoDB 中,文档(对象)以 BSON 格式存储。BSON(Binary JSON
)是类 JSON 文档的二进制序列化。
使用这种格式,我们可以使用不同的扩展来使用不属于 JSON 的数据类型的各种表示。
例如,我们在 BSON 中有一个 Date
和 BinData
类型,这在 JSON 中不可用。根据 MongoDB 文档,单个 BSON 文档的大小限制为 16MB
。
我们有文档的最大大小限制,以确保一个文档在传输过程中不能使用不受限制的 RAM 量或带宽。请记住,我们可以将 BSON 文档嵌套多达 100 个级别,其中每个数组/对象添加一个级别。
在当今世界,我们周围都有数据。因此,我们的数据可能会增加 16 兆字节的 BSON 文档的大小限制。
在这种情况下,MongoDB 通过提供 GridFS
API 来帮助我们存储大于 16MB
的文档。
什么是 GridFS
API
GridFS
是一个 MongoDB 规范,我们可以使用它来存储和访问超过 BSON 文档限制 (16MB
) 的大文件,例如音频、视频或图像文件。它类似于用于存储文件的文件系统,但数据存储在 MongoDB 集合中。
GridFS
API 将文件分成块并将每个数据块存储在单独的文档中,其中每个文档的大小为 255KB
。GridFS
默认包含两个集合,fs.files
和 fs.chunks
,存储文件的元数据和块。
每个块都由唯一的 _id
(ObjectId
)字段识别,而 fs.files
用作父文档。fs.chunks
文档中的 files_id
字段将块链接到其父级。
你可以通过 this 文章了解使用 GridFS
时的语法。
有效地使用默认 BSON 文档大小限制
BSON 文档大小限制 (16MB
) 很大。例如,War of the Worlds
的整个未压缩文本只有 364k
(HTML),但总是有例外。
如果你的数据超过限制,你可以使用我们之前讨论过的 GridFS
API 或制定有效使用 16MB
的策略。
让我们有一个场景,我们想要开发一个 XYZ 应用程序。应用程序需要四种数据类型——Booleans
、numbers
、strings
和 dates
(表示为 UNIX ms)。
由于有 16MB
的大小限制,MongoDB 可以轻松存储大约 200 万个 64 位
数字值(日期
和 布尔值
也是如此)。
在这里,string
类型值需要特别注意,因为每个 UTF-8 字符占用一个 byte
。我们需要优化所有包含 string
类型值的列的大小。
我们可以尝试以下方法来减小具有 string
类型值的列的大小。
-
我们可以使用
stringify()
和zip()
方法作为zip(JSON.stringify(column.values));
。 -
我们可以创建一个字典,并将所有唯一的
string
类型值插入到字典中。然后,用索引替换字符串值。如果我们在一个字段中有许多重复的字符串值,这种方法很有用。如果有人想存储一列哈希,这种方法将无济于事,但他们可以使用
GridFS
API。 -
我们还可以将列拆分成不同的块,并将这些块保存在链接到主文档的其他一些文档中。
有一篇参考文章展示了所有这些方法。