壓縮 MongoDB 的數(shù)據(jù)文件
MongoDB 采用了磁盤空間預(yù)分配的機(jī)制,為了避免磁盤碎片以及使用mmap后造成的近一步的內(nèi)存碎片,但是隨著數(shù)據(jù)的增刪除改操作,數(shù)據(jù)文件不可避免的會產(chǎn)生空洞,造成磁盤空間和內(nèi)存的浪費(fèi)。本文說的是這方面的壓縮,數(shù)據(jù)使用某些壓縮算法進(jìn)行壓縮的討論不在此范圍。
在MongoDB 中,大概有兩種方法可以解決這種問題,但是都不是無痛方式,所以并不推薦使用。
1.通過 repairDatabase 整理數(shù)據(jù)文件
repairDatabase 是MongoDB 內(nèi)置的一個(gè)db 上的方法,調(diào)用這個(gè)方法,MongoDB 會掃描db中的所有數(shù)據(jù),并將通過重新插入來重新整理數(shù)據(jù)集合。
這種方法的代價(jià)是對這個(gè) db 的讀寫操作會變得非常之慢,甚至?xí)霈F(xiàn)寫操作丟失的情況。所以這個(gè)時(shí)候最好直接停掉客戶端的寫操作。
可以創(chuàng)建 bar.js 文件,寫入如下代碼:- // Get a the current collection size.
- var storage = db.foo.storageSize();
- var total = db.foo.totalSize();
- print('Storage Size: ' + tojson(storage));
- print('TotalSize: ' + tojson(total));
- print('-----------------------');
- print('Running db.repairDatabase()');
- print('-----------------------');
- // Run repair
- db.repairDatabase()
- // Get new collection sizes.
- var storage_a = db.foo.storageSize();
- var total_a = db.foo.totalSize();
- print('Storage Size: ' + tojson(storage_a));
- print('TotalSize: ' + tojson(total_a));然后運(yùn)行:
- $ mongo foo bar.js運(yùn)行結(jié)果:
- MongoDB shell version: 1.6.4
- connecting to: foo
- Storage Size: 51351
- TotalSize: 79152
- -----------------------
- Running db.repairDatabase()
- -----------------------
- Storage Size: 40960
復(fù)制代碼 TotalSize: 65153 2.如果應(yīng)用可以接受,可以考慮使用capped collection
capped collection 是 MongoDB 中的一種特殊collection,它的大小可以限定,數(shù)據(jù)在這個(gè)限定大小內(nèi)循環(huán)寫入,在數(shù)據(jù)集合達(dá)到上限后,新數(shù)據(jù)會覆蓋老的數(shù)據(jù)。這樣磁盤上的空洞在一段時(shí)間后會自動消除。
參考資料:http://learnmongo.com/posts/compacting-mongodb-data-files/
事實(shí)上使用 replication 相關(guān)的功能也可以實(shí)現(xiàn)以上說的數(shù)據(jù)壓縮,具體過程比較麻煩,還會涉及到客戶端的切換等操作。有興趣的同學(xué)可以自己研究一下。同時(shí)歡迎有更好的方法提供。
|