跳到主要内容
版本:Next

故障树分析法

故障树分析法(Fault Tree Analysis, FTA)是一种系统化的方法,用于分析和识别导致系统故障的潜在原因。它通过图形化的方式展示各种可能的故障路径,帮助工程师和管理人员理解和解决复杂系统中的问题。

以故障树分析法为模型,Websoft9 在实践中托管维护的问题的基本事件(Basic Events)主要为:资源瓶颈、连接障碍和组件失效

同一个基本事件,解决方案具有高度一致性。

资源瓶颈

资源瓶颈主要指计算资源不足:CUP 超负荷、内存不足、硬盘空间已满、带宽太小、进程互斥、端口被占用等。

# 查看内存使用
free

# 查看硬盘使用
df -hl

# 查看进程以及 CPU 使用
top

# 查看端口
netstat -tunlp

典型范例:

连接障碍

网络不通、访问权限不足、账号错误、黑名单问题、错误的连接对象等特征下,都是技术组件的连接问题。

连接的双方包括:

  • 应用 连接 数据库
  • 客户端 连接 服务端
  • 浏览器 访问 网站

连接障碍有分为静态和动态两种:

  • 静态:严格安全机制,不符合条件的连接被禁止
  • 动态:连接开始可用,但外界条件发生变化,导致某种安全机制启动,连接变得不可用

诊断连接命令:

# 查看端口是否开放
nmap -p 22 47.92.175.174
nmap -p 80 47.92.175.174

# 分别查看本机开放的 TCP 端口、UDP 端口
nmap -sT 127.0.0.1
nmap -sU 127.0.0.1

# DNS 诊断
dig websoft9.com

# 端到端连通诊断
ping websoft9.com

# 路由跟踪
traceroute websoft9.com

# Telnet
telnet websoft9.com 9090

# Ping 与 traceroute 组合
mtr websoft9.com

典型范例:

组件失效

一个系统的子系统(或组件)失效,会导致周边依赖此系统的其他系统出现故障。

系统(组件)的失效特征包括:不可操作、损坏、无法启动、非计划停止、锁定、商业因素(欠费)、安全事故等

典型范例: