Proxmox VE 문제 해결 가이드¶
Troubleshooting Guide for Proxmox VE 8.x
일반적인 문제 상황과 해결 방법
목차¶
- 클러스터 문제
- Quorum 및 Split-brain
- VM/CT 시작 실패
- 스토리지 문제
- 네트워크 문제
- 백업/복원 문제
- 인증/권한 문제
- HA 문제
- Ceph 문제
- 성능 문제
- 웹 GUI 문제
- 업그레이드 문제
1. 클러스터 문제¶
1.1 노드가 클러스터에 연결되지 않음¶
증상:
- pvecm status에서 노드가 보이지 않음
- Web GUI에서 노드 상태가 "unknown"
진단:
# Corosync 상태 확인
systemctl status corosync
journalctl -u corosync -f
# 클러스터 파일시스템 상태
systemctl status pve-cluster
pmxcfs -d # 디버그 모드로 실행
# 네트워크 연결 확인
ping <other-node-ip>
해결 방법:
-
Corosync 서비스 재시작:
-
방화벽 확인:
-
Corosync 바인딩 주소 확인:
1.2 클러스터 Join 실패¶
증상:
- pvecm add <ip> 실행 시 오류
- "authentication failed" 또는 "connection refused"
해결 방법:
-
SSH 키 확인:
-
시간 동기화 확인:
-
인증서 문제:
1.3 노드 제거 후 잔여 데이터¶
증상:
- 제거된 노드가 GUI에 계속 표시
- /etc/pve/nodes/<old-node> 디렉토리 존재
해결 방법:
# 1. 클러스터에서 노드 삭제 확인
pvecm delnode <old-node>
# 2. 잔여 디렉토리 수동 삭제 (Quorum 있을 때)
rm -rf /etc/pve/nodes/<old-node>
# 3. SSH 키 정리
rm /etc/pve/priv/known_hosts
rm /root/.ssh/known_hosts
2. Quorum 및 Split-brain¶
2.1 Quorum 손실¶
증상:
- "no quorum" 메시지
- /etc/pve 읽기 전용
- VM/CT 조작 불가
진단:
해결 방법:
-
긴급 Quorum 복구 (단일 노드 운영):
-
정상 복구:
-
Quorum Device 사용 (3노드 이하 클러스터):
2.2 Split-brain 복구¶
증상: - 양쪽 파티션에서 같은 VM이 실행됨 - 설정 파일 충돌
복구 절차:
# 1. 한쪽 파티션의 모든 노드 종료
systemctl stop pve-cluster corosync
# 2. 살아있는 파티션에서 Quorum 확보
pvecm expected <alive-nodes-count>
# 3. VM 상태 확인 및 정리
qm list
ps aux | grep qemu
# 4. 충돌 VM 강제 종료
qm stop <vmid> --forceStop
# 5. 종료했던 노드 재시작
systemctl start corosync pve-cluster
3. VM/CT 시작 실패¶
3.1 VM 시작 실패 (QEMU)¶
증상: - "TASK ERROR: start failed: command ... failed" - VM 상태가 "stopped"로 유지
진단:
# QEMU 명령 확인
qm showcmd <vmid> --pretty
# 로그 확인
journalctl -u pvedaemon -f
cat /var/log/pve/qemu-server/<vmid>.log
# 수동 시작 시도
qm start <vmid> --debug
일반적인 원인과 해결:
-
디스크 누락:
-
KVM 비활성화:
-
메모리 부족:
-
Lock 파일 문제:
3.2 CT 시작 실패 (LXC)¶
진단:
일반적인 원인과 해결:
-
Namespace 문제 (Unprivileged CT):
-
네트워크 인터페이스 충돌:
-
AppArmor 문제:
3.3 마이그레이션 실패¶
진단:
일반적인 원인:
-
스토리지 비공유:
-
CPU 불일치:
-
네트워크 대역폭:
4. 스토리지 문제¶
4.1 스토리지 접근 불가¶
진단:
NFS 문제:
# NFS 마운트 확인
showmount -e <nfs-server>
# 수동 마운트 테스트
mount -t nfs <server>:<export> /mnt/test
# NFS 서비스 재시작
systemctl restart nfs-common rpcbind
iSCSI 문제:
# iSCSI 세션 확인
iscsiadm -m session
# 타겟 재검색
iscsiadm -m node --rescan
# 타겟 재로그인
iscsiadm -m node --login
4.2 ZFS 문제¶
Pool 상태 불량:
디스크 교체:
# 고장난 디스크 확인
zpool status
# 디스크 교체
zpool replace <pool> <old-disk> <new-disk>
# 리실버 진행 확인
zpool status -v <pool>
스페이스 부족:
# 사용량 확인
zfs list
# 스냅샷 정리
zfs list -t snapshot
zfs destroy <pool>/<dataset>@<snap>
# 예약 공간 확인
zfs get reservation,refreservation <pool>/<dataset>
4.3 LVM/LVM-thin 문제¶
Thin Pool 가득 참:
# 사용량 확인
lvs -a
# Thin Pool 확장
lvextend -L +50G <vg>/<thin-pool>
# 메타데이터 확장
lvextend --poolmetadatasize +1G <vg>/<thin-pool>
볼륨 활성화 실패:
5. 네트워크 문제¶
5.1 브릿지 연결 문제¶
VM/CT가 네트워크에 접근 불가:
# 브릿지 상태
brctl show
bridge link
# 포트 확인
bridge fdb show br vmbr0
# iptables 규칙 확인 (브릿지 트래픽 차단 여부)
iptables -L FORWARD -v -n
해결:
# 브릿지 netfilter 비활성화 (필요시)
echo 0 > /sys/devices/virtual/net/vmbr0/bridge/nf_call_iptables
# 영구 설정
echo "net.bridge.bridge-nf-call-iptables = 0" >> /etc/sysctl.conf
sysctl -p
5.2 VLAN 문제¶
VLAN 트래픽 통과 안됨:
# VLAN-aware 브릿지 확인
cat /etc/network/interfaces | grep vlan-aware
# VLAN 설정 확인
bridge vlan show
# 스위치 포트가 트렁크 모드인지 확인 (물리 스위치)
해결:
# VLAN-aware 브릿지로 재설정
auto vmbr0
iface vmbr0 inet static
address 192.168.1.10/24
gateway 192.168.1.1
bridge-ports eno1
bridge-stp off
bridge-fd 0
bridge-vlan-aware yes
bridge-vids 2-4094
5.3 Bonding 문제¶
Bond 슬레이브 다운:
# Bond 상태
cat /proc/net/bonding/bond0
# 슬레이브 재추가
ip link set <slave> down
echo +<slave> > /sys/class/net/bond0/bonding/slaves
ip link set <slave> up
LACP 문제:
6. 백업/복원 문제¶
6.1 백업 실패¶
일반적인 오류:
# 로그 확인
cat /var/log/pve/tasks/<task-id>
# 수동 백업 테스트
vzdump <vmid> --mode snapshot --compress zstd 2>&1 | tee /tmp/backup.log
스냅샷 모드 실패:
# QEMU Guest Agent 확인
qm agent <vmid> ping
# Agent 없이 백업 (디스크 불일치 가능)
vzdump <vmid> --mode snapshot
# suspend 모드 사용 (더 안전)
vzdump <vmid> --mode suspend
스토리지 공간 부족:
# 백업 스토리지 확인
pvesm status
df -h /var/lib/vz/dump
# 오래된 백업 정리
ls -la /var/lib/vz/dump/
vzdump --prune-backups keep-last=3
6.2 복원 실패¶
일반적인 오류:
# 백업 파일 검증
vma verify <backup-file.vma>
# 스토리지 지정 복원
qmrestore <backup> <vmid> --storage <target-storage>
VMID 충돌:
디스크 포맷 불일치:
7. 인증/권한 문제¶
7.1 로그인 불가¶
root 비밀번호 분실:
# 1. 단일 사용자 모드로 부팅
# GRUB에서 linux 라인에 init=/bin/bash 추가
# 2. 파일시스템 재마운트
mount -o remount,rw /
# 3. 비밀번호 변경
passwd root
# 4. 재부팅
exec /sbin/init
PVE 사용자 비밀번호 재설정:
7.2 권한 오류¶
"Permission denied" 오류:
# 사용자 권한 확인
pveum acl list
pveum user list <user>@<realm>
# 권한 부여
pveum acl modify /vms/<vmid> --user <user>@<realm> --role PVEVMAdmin
API Token 문제:
# 토큰 권한 확인
pveum user token list <user>@<realm>
# 토큰에 권한 상속
pveum user token add <user>@<realm> <token> --privsep 0
7.3 LDAP/AD 인증 실패¶
연결 테스트:
# LDAP 연결 테스트
ldapsearch -x -H ldap://<server> -D "<bind-dn>" -W -b "<base-dn>" "(uid=testuser)"
# SSL 인증서 문제
openssl s_client -connect <server>:636
해결:
# Realm 설정 수정
pveum realm modify <realm> --server1 <new-server>
# TLS 검증 비활성화 (테스트용)
pveum realm modify <realm> --verify 0
8. HA 문제¶
8.1 HA 리소스 시작 안됨¶
진단:
Fencing 문제:
# Watchdog 확인
cat /dev/watchdog
# Fencing 설정 확인
cat /etc/pve/ha/manager_status
# Watchdog 재설정
modprobe softdog
8.2 HA 마이그레이션 실패¶
리소스가 특정 노드에 고착:
# 수동 마이그레이션
ha-manager migrate vm:<vmid> <target-node>
# HA 상태 재설정
ha-manager set vm:<vmid> --state started
# HA에서 일시 제거 후 수동 처리
ha-manager set vm:<vmid> --state disabled
qm migrate <vmid> <target-node>
ha-manager set vm:<vmid> --state started
9. Ceph 문제¶
9.1 Ceph Health Warning¶
HEALTH_WARN 확인:
일반적인 경고와 해결:
-
OSD near full:
-
PG undersized/degraded:
-
Clock skew:
9.2 OSD 장애¶
OSD Down:
# OSD 상태
ceph osd tree
# OSD 재시작
systemctl restart ceph-osd@<osd-id>
# OSD 제거 (영구 장애 시)
ceph osd out <osd-id>
ceph osd crush remove osd.<osd-id>
ceph auth del osd.<osd-id>
ceph osd rm <osd-id>
디스크 교체:
9.3 Ceph 성능 문제¶
느린 요청:
# 느린 요청 확인
ceph daemon osd.<id> dump_historic_slow_ops
# OSD 상태
ceph osd perf
# Recovery 영향 제한
ceph osd set-backfillfull-ratio 0.95
ceph config set osd osd_recovery_max_active 1
10. 성능 문제¶
10.1 높은 CPU 사용률¶
진단:
해결:
10.2 높은 I/O 대기¶
진단:
해결:
# 캐시 모드 변경
qm set <vmid> --scsi0 <storage>:<disk>,cache=writeback
# I/O 스케줄러 변경
echo mq-deadline > /sys/block/sda/queue/scheduler
# VirtIO 사용 확인
qm config <vmid> | grep virtio
10.3 메모리 부족¶
진단:
해결:
# KSM 활성화
echo 1 > /sys/kernel/mm/ksm/run
# Ballooning 조정
qm set <vmid> --balloon 2048
# Swap 추가
fallocate -l 4G /swapfile
chmod 600 /swapfile
mkswap /swapfile
swapon /swapfile
11. 웹 GUI 문제¶
11.1 GUI 접근 불가¶
503 Service Unavailable:
# pveproxy 상태
systemctl status pveproxy
journalctl -u pveproxy
# 재시작
systemctl restart pveproxy pvedaemon
인증서 오류:
# 인증서 재생성
pvecm updatecerts -f
# 수동 재생성
cd /etc/pve/nodes/<node>
rm pve-ssl.pem pve-ssl.key
pvecm updatecerts
11.2 느린 GUI¶
원인 진단:
# RRD 데이터베이스 문제
systemctl status rrdcached
du -sh /var/lib/rrdcached/
# pvestatd 상태
systemctl status pvestatd
해결:
# RRD 캐시 재시작
systemctl restart rrdcached
# RRD 데이터 재구성
rm /var/lib/rrdcached/db/pve2-*
systemctl restart rrdcached pvestatd
12. 업그레이드 문제¶
12.1 패키지 업그레이드 실패¶
apt 문제:
# 패키지 소스 확인
cat /etc/apt/sources.list
cat /etc/apt/sources.list.d/pve-enterprise.list
# 무료 버전 사용 시
rm /etc/apt/sources.list.d/pve-enterprise.list
echo "deb http://download.proxmox.com/debian/pve bookworm pve-no-subscription" > /etc/apt/sources.list.d/pve-no-subscription.list
apt update
dpkg 오류:
12.2 메이저 업그레이드 문제¶
Debian 업그레이드 후 문제:
# 패키지 재구성
apt dist-upgrade
pve7to8 --full # 7에서 8로 업그레이드 시
# 커널 확인
uname -r
apt install pve-kernel-6.2
긴급 복구 체크리스트¶
클러스터 긴급 복구¶
# 1. 클러스터 상태 확인
pvecm status
# 2. Quorum 강제 설정 (주의!)
pvecm expected 1
# 3. 서비스 재시작
systemctl restart pve-cluster corosync
# 4. pmxcfs 수동 모드 (최후 수단)
systemctl stop pve-cluster
pmxcfs -l # 로컬 모드
VM 긴급 복구¶
# 1. Lock 해제
qm unlock <vmid>
# 2. 강제 종료
qm stop <vmid> --forceStop
# 3. 수동 프로세스 종료
ps aux | grep <vmid>
kill -9 <pid>
# 4. 설정 파일 복구
cd /etc/pve/nodes/<node>/qemu-server/
ls -la <vmid>.conf*
로그 위치 참조¶
| 로그 | 위치 |
|---|---|
| 시스템 | /var/log/syslog, journalctl |
| Proxmox 태스크 | /var/log/pve/tasks/ |
| QEMU | /var/log/pve/qemu-server/<vmid>.log |
| Corosync | journalctl -u corosync |
| Ceph | journalctl -u ceph-*, /var/log/ceph/ |
| 방화벽 | journalctl -u pve-firewall |
지원 리소스¶
- Proxmox 포럼 - 커뮤니티 지원
- Proxmox Wiki - 공식 문서
- Proxmox Bug Tracker - 버그 리포트
- 상업 지원: Proxmox Subscription
Last Updated: 2026-01-11