Mindon.IDEA

Air off, Mind on ~ / Javascript+Golang, Sci, Health… /

MongoDB: The Internal File Structure

Jared Rosoff

Each logical db has its own set of files in your dbpath. You can find them as .. If you’re using directory-per-db option, then they may be in separate directories.

The dbfiles themselves are broken up into extents. Each extent is assigned to a namespace and contains data for that namespace. Each collection is its own namespace. Also each Index is its own namespace.

Documents in a collection are stored as a doubly linked list within extents. The document itself is formatted as BSON. There is a header that has, among other things, pointers to the next and previous document in the collection.

Index data is also stored in these files, but they are stored as B-Tree’s rather than doubly linked lists.

There is also a namespace file that contains namespace (collections, indexes, freelist) meta data and how they map to their extents.

If you’re running with journaling enabled, then there is also a set of journal files that contain a history of changes to collection data.

MongoDB数据文件内部结构

Origin from http://blog.nosqlfan.com/html/3515.html

有人在Quora上提问:MongoDB数据文件内部的组织结构是什么样的。随后10gen的工程师Jared Rosoff出来做了简短的回答。

每一个数据库都有自己独立的文件。如果你开启了directoryperdb选项,那你每个库的文件会单独放在一个文件夹里。

数据库文件在内部会被切分成单个的块,每个块只保存一个名字空间的数据。在MongoDB中,名字空间用于区分不同的存储类别。比如每个collection有一个独立的名字空间,每个索引也有自己的名字空间。

在一个块中,会保存多条记录,每条记录是BSON格式的,记录与记录之间通过双向链表进行连接。

索引数据也存在数据文件中,不过索引是被组织成B-Tree结构,而不是双向链表。

对每个数据库,有一个命名空间文件,用于保存每个名字空间对应的元数据。我们通过查询这些元数据来找到对应的名字空间的存储块位置。

如果你开启了jorunaling日志,那么还会有一些文件存储着你所有的操作记录。

下面图片摘自10gen工程师Mathias Stearn在MongoSV2011大会上的发言稿,手绘的数据文件结构。

  1. 每个数据库有相应的数据文件和命名空间文件

  2. 数据文件从16MB开始,新的数据文件比上一个文件大一倍,最大为2GB

  3. 文件使用MMAP进行内存映射,会将所有数据文件映射到内存中,但是只是虚拟内存,只有访问到这块数据时才会交换到物理内存。

  4. MongoDB的数据文件映射到内存表中的位置

  5. 使用32位机器的话,内存地址最大可以标识4GB内存

  6. 但是在32位机器上,4GB内存会有1GB被内核战用,大约0.5GB会用于mongod进程的stack空间,只剩下大约2.5GB可用于映射数据文件。

  7. 在64位机器上则最多可以表示128TB的空间

  8. 每个数据文件会被分成一个一个的数据块,块与块之间用双向链表连接

  9. 在名字空间文件中,保存的是一个hash table,保存了每个名字空间的存储信息元数据,包括其大小,块数,第一块位置,最后一块位置,被删除的块的链表以及索引信息

  10. 这些位置通过DiskLoc数据结构进行存储,存储了数据文件编号和块在文件中的位置

  11. 对每一个块来说,其头部包含了一些块的元数据,比如自己的位置,上一个和下一个块的位置以及块中第一条和最后一条记录的位置指针。剩下的部分用于存储具体的数据,具体数据之间也是通过双向链接来进行连接。

  12. 下面是B-Tree的存储结构和工作原理

Comments