分布式是大型架构的核心,下面我重点详解分布式存储技术方案@mikechen
分布式存储
在现代互联网系统中,数据量爆炸式增长 已成常态。
单机存储早已无法满足高并发、高可用的业务需求,因此分布式存储系统 成为支撑大规模数据的核心底座。

分布式存储:是一种将数据分散存放在多台服务器上的系统方案。
通过数据分片、冗余副本和一致性协议来实现高可靠、高扩展的数据管理。
HDFS
分布式存储技术方案中,主流的四大方案HDFS、Ceph、FastDFS和GlusterFS。
HDFS 是 Hadoop 生态中的核心组件,设计目标是高吞吐量的大文件存储与访问。
HDFS 采用主从架构:一个或多个 NameNode 负责全局元数据管理,多个 DataNode 存储实际数据块。

文件被切分为固定大小的数据块(默认 128MB 或 64MB),并按副本策略(默认三副本)分布存储。
优点:适合海量数据的离线批量处理,生态丰富,Hadoop大数据计算平台支持良好。
缺点:NameNode单点故障(虽有HA模式但复杂),不支持POSIX接口,实时性较差,扩展需谨慎规划。
适用场景:大数据离线分析,数据仓库等大规模批处理计算环境。
Ceph
Ceph 是一个统一的分布式存储系统,同时支持对象存储、块存储、文件存储三种接口。

核心组件:
OSD(Object Storage Daemon):实际存储数据对象;
MON(Monitor):维护集群状态和元数据一致性;
MDS(Metadata Server):文件系统目录元数据管理;
CRUSH 算法:数据分布算法,无中心路由瓶颈。
优点:高度可扩展,无单点故障,高性能,支持POSIX接口,强容错和自动修复。
缺点:系统较复杂,部分功能仍处于实验性,生产环境维护难度较大。
适用场景:云存储平台,实时大数据存储,需高可靠性和弹性扩展的环境。
FastDFS
FastDFS 是一款轻量级的分布式文件系统,强调文件的快速上传/下载与分发。
其架构由 Tracker(跟踪服务器)和 Storage(存储服务器)组成。

Tracker 负责元数据和负载均衡,Storage 存储文件并对外提供下载服务。
优点:安装部署简单,支持在线扩容,主从Tracker结构提高可用性,适合中小文件存储。
缺点:不支持POSIX接口,不适合大文件存储,跨公网同步延迟大,单点性能瓶颈。
适用场景:图片、视频等文件存储服务,互联网中小文件存储。
GlusterFS
GlusterFS ,是基于用户态实现的分布式文件系统。

采用可扩展的模块化架构,通过“卷(volume)”概念将多个存储节点聚合为逻辑文件系统。
优点:线性可扩展,支持PB级存储和数千客户端并发访问,高性能高可用,支持Geo-replication跨集群同步。
缺点:小文件性能偏低,目录遍历耗时,扩缩容会影响部分节点。
适用场景:大容量共享存储,跨地域数据同步,企业级文件服务器。
陈睿mikechen
10年+大厂架构经验,资深技术专家,就职于阿里巴巴、淘宝、百度等一线互联网大厂。
关注作者「mikechen」公众号,获取更多技术干货!
后台回复【架构】,即可获取《阿里架构师进阶专题全部合集》,后台回复【面试】即可获取《史上最全阿里Java面试题总结》