- Hadoop集群程序设计与开发
- 王宏志 李春静
- 875字
- 2025-02-17 12:05:49
1.3.2 大数据的存储结构
分布式存储与访问是大数据存储的关键技术,它具有经济、高效、容错好等特点。分布式存储技术与数据存储介质的类型和数据的组织管理形式直接相关。目前的主要数据存储介质类型包括内存、磁盘、磁带等;主要数据组织管理形式包括按行组织、按列组织、按键值组织和按关系组织;主要数据组织管理层次包括按块级组织、按文件级组织及按数据库级组织等。
分布式文件系统是由多个网络节点组成的向上层应用提供统一的文件服务的文件系统。分布式文件系统中的每个节点可以分布在不同的地点,通过网络进行节点间的通信和数据传输。分布式文件系统中的文件在物理上可能被分散存储在不同的节点上,在逻辑上仍然是一个完整的文件。使用分布式文件系统时,不需要关心数据存储在哪个节点上,只需像本地文件系统一样管理和存储文件系统的数据。
文档存储支持对结构化数据的访问,不同于关系模型的是,文档存储没有强制的架构。事实上,文档存储以封包键值对的方式进行存储。
列式存储将数据按行排序,按列存储,将相同字段的数据作为一个列族来聚合存储。当只查询少数列族数据时,列式数据库可以减少读取数据量,减少数据装载和读入读出的时间,提高数据处理效率。按列存储还可以承载更大的数据量,获得高效的垂直数据压缩能力,降低数据存储的开销。
键值存储即Key-Value存储,简称KV存储,是NoSQL存储的一种方式。它的数据按照键值对的形式进行组织、索引和存储。KV存储非常适合不涉及过多数据关系和业务关系的业务数据,同时能有效减少读写磁盘的次数。
图形数据库主要用于存储事物及事物之间的相关关系,这些事物整体上呈现复杂的网络关系。
关系模型是最传统的数据存储模型,它使用记录(由元组组成)按行进行存储,记录存储在表中,表由架构界定。表中的每个列都有名称和类型,表中的所有记录都要符合表的定义。
内存存储是指内存数据库(MMDB)将数据库的工作版本放在内存中,由于数据库的操作都在内存中进行,因而磁盘I/O不再是性能瓶颈,内存数据库系统的设计目标是提高数据库的效率和存储空间的利用率。内存存储的核心是内存存储管理模块,其管理策略的优劣直接关系到内存数据库系统的性能。