HDFS
HDFS 是大数据生态中最常用的分布式文件系统,设计目标是高吞吐、适合大文件与批处理场景。
核心组件包括 NameNode(元数据)、DataNode(数据块存储)和 Secondary/Backup NameNode。

主要特性:
大文件、顺序读写优化(适用于 MapReduce、Spark 等)。
元数据集中管理(NameNode),查询元数据快速但 NameNode 为关键点,需做 HA。
默认采用三副本复制机制,恢复速度快但空间开销高;支持基于 HDFS 的 erasure coding(节省空间)。
优缺点:
优点:高吞吐、生态成熟(与 Hadoop 生态深度集成)、稳定可靠。
缺点:不适合大量小文件、低延迟随机访问表现一般;NameNode 成为架构关注点。
适用场景:离线大数据处理、批量 ETL、海量日志存储、数据湖场景。
Ceph
Ceph是一个统一的、分布式的存储系统,旨在提供对象存储、块存储和文件存储功能。

提供 RADOS(底层分布式对象存储)、RBD(块设备)、CephFS(文件系统)和 RGW(对象网关,兼容 S3/Swift)。
主要特性:
去中心化元数据(CRUSH 算法实现数据定位,减少单点瓶颈)。
支持副本与纠删码两种数据保护策略,灵活权衡性能与空间。
与 CephFS、RBD、RGW 结合,可为不同存储需求提供统一平台。
优缺点:
优点:高度可扩展、容错性强、功能全面(块/对象/文件统一平台)。
缺点:部署与调优复杂(需要对集群参数、网络、硬件进行精细调优),对小文件表现与元数据高并发可能需要额外优化。
适用场景:云平台、虚拟化后端(OpenStack)、统一多类型存储、大规模对象存储与企业级分布式存储。
GlusterFS
GlusterFS是一种开源的分布式文件系统,它通过将多个存储服务器聚合起来,形成一个统一的命名空间。

主要特性:
部署相对简单,支持横向扩展、弹性伸缩。
数据分布与复制由卷(volume)机制控制,支持复制、条带(striping)和分布式卷模式。
通过 FUSE 可直接挂载为 POSIX 文件系统,支持 NFS/SMB 等协议。
优缺点:
优点:易上手、适合中小规模分布式文件需求、协议兼容性好。
缺点:在极大规模或高并发元数据操作下可能出现性能瓶颈;某些高级功能在稳定性或性能上需谨慎评估。
适用场景:文件共享服务、媒体存储、企业内部文件系统、需要协议兼容(POSIX/NFS)的场景。
FastDFS
FastDFS 是一个开源的、高性能的分布式文件系统,专为海量小文件存储和高并发访问而设计。
FastDFS 的核心思想是轻量级、去中心化,它的架构非常简洁,主要由两个核心角色组成:

追踪服务器是集群的“调度中心”,它不存储任何文件数据,只负责记录和管理存储服务器的元数据。
比如每个存储服务器属于哪个组(Group),当前的状态(在线、离线),以及剩余空间等信息。
存储服务器是集群的“数据仓库”,负责文件的实际存储、同步和管理。
总的来说,FastDFS以其简洁高效的架构,成为了许多互联网应用解决海量文件存储问题的经典方案,特别是在中小文件存储场景下表现出色。