▩ 목 차 ▩
1. Garbage Collection이란?
2. JVM의 Heap의 영역
3. Garbage Collection의 동작 방식
3-1. 세부적인 동작방식이 다른 가비지 컬렉션은 실행될때 2가지 공통적인 단계를 거친다.
3-1-1.Stop The World
3-1-2. Mark and Sweep
3-2. Minor GC의 동작 방식
3-3. Major GC의 동작 방식
4. GC 방식에 따라서 처리 절차가 달라진다 어떤 방식이 있는지 알아보자.
4-1. Serial GC
4-2. Parallel GC
4-3. Parallel Old GC
4-4. CMS(Concurrent Mark Sweep) GC
4-5. G1(Garbage First) GC
4-5-1. Minor GC
4-5-2. Major GC
자바의신 책을 보는데 자바에서 알아서 메모리를 관리해주는 Garbage Collection을 배웠다.
책에선 Garbage Collection을 간단하게만 배웠고 이것의 동작원리 및 알고리즘이 궁금해서 공부해보기로 하였다.
한번 알아보자!
■ 1. Garbage Collection이란? ■
프로그램을 개발을 하다 보면 쓰이지 않는 메모리인 쓰레기 메모리가 발생하게 된다.
Java나 Kotlin의 경우에는 JVM의 Grabage Collection(GC)가 불릴요한 메모리를 알아서 정리해준다.
자바에서 명시적으로 불필요한(쓰이지 않는) 데이터를 표현하기 위해서 일반적으로 null을 선언해준다.
[EX] - Garbage Collection
public class Main {
public static void main(String[] args) {
String url = "https://";
url += "yaboong.github.io";
System.out.println(url);
}
}
1. 위 코드에서 String ulr = "https://"; 구문이 실행된 뒤 스택과 힙은 아래와 같다.
2. 다음 구문인 url += "yaboong.github.io"; 구문을 실행한다. 불변객체(String)의 연산이므로 "https://"String에 "yaboong.github.io"를 덧 붙인 "https://yaboong.github.io"로 바뀌는것이 아니라
새로운 String "https://yaboong.github.io"이 할당되는 것이다.
위의 사진을 보게되면 Stack에는 새로운 변수가 할당되지 않는다.
즉, 문자열 더하기 연산의 결과인 "https://yaboong.github.io"가 새롭게 heap 영역에 생성되고, 기존에 "https://"를 레퍼런스 하고 있던 url 변수는 새롭게 생성된 문자열을 레퍼런스(참조)하게 되는것이다!!!!
==> 여기서 기존의 "https://"라는 문자열을 레퍼런스 하고 있는 변수는 아무것도 없으므로 Unreachable 오브젝트가 된다.
JVM의 Garbage Collector 는 Unreachable Object를 우선적으로 메모리에서 제거하여 메모리 공간을 확보한다.
Unreachable Object란 Stack에서 도달할 수 없는 Heap 영역의 객체를 말하는데, 위에 있는 예제에서 "https://" 문자열과 같은 경우가 되겠다.(불변객체에서의 연산작업을 할 때 남은 껍데기라고 생각하자.)
즉, Garbage Collection이 일어나면 Unreachable 오브젝트들은 메모리에서 제거된다.
■ 2. JVM의 Heap의 영역 ■
키워드 : Heap 영역 = Young영역(Minor GC) + Old영역(Major GC, 카드 테이블[Old영역에 있는 객체가 Young영역의 객체를 참조할 때마다 그에 대한 정보가 표시])
JVM의 Heap영역은 처음 설계될 때 2가지 전재로 설계되었다.
- 대부분의 객체는 금방 접근 불가능한 상태가 된다.
- 오래된 객체에서 새로운 객체로의 참조는 아주 적게 존대한다.
==> 즉, 객체는 대부분 일회성이며, 메모리에 오랫동안 남아있는 경우는 드물다는 것을 말한다.
그렇기 때문에 객체의 생존 기간에 따라 물리적인 Heap 영역을 나누게 되었고, Young, Old 총 2가지 영역으로 설계가 되었다.
- Young 영역(Young Generation)
- 새롭게 생성된 객체가 할당되는 영역
- 대부분의 객체가 금방 Unrechable(Stack에서 도달할 수 없는 Heap 영역의 객체) 상태가 되기 때문에, 많은 객체가 Young 영역에 생성되었다가 사라진다.
- Young 영역에 대한 가비지 컬렉션을 Minor GC 혹은 Young GC라고 부른다.
- Old 영역(Old Generation)
- Young영역에서 Reachable 상태를 유지하여 살아남은 객체가 복사되는 영역
- Young영역보다 크게 할당되며, 영역의 크기가 큰 만큼 가비지는 적게 발생한다.
[ Old영역이 Young 영역보다 크게 할당되는 이유는 Young영역의 수명이 짧은 객체들은 큰 공간을 필요로 하지 않으며 큰 객체들은 Young영역이 아니라 바로 Old영역에 할당되기 때문이다. ] - Old 영역에 대한 가비지 컬렉션을 Major GC 혹은 Full GC라고 부른다.
- 예외적인 상황으로 Old 영역에 있는 객체가 Young 영역의 객체를 참조하는 경우도 존재할 것이다. 이러한 경우를 대비하여 Old 영역에는 512 bytes의 덩어리(Chunk)로 되어 있는 카드 테이블(Card Table)이 존재한다.
카드 테이블에는 Old영역에 있는 객체가 Young영역의 객체를 참조할 때마다 그에 대한 정보가 표시된다.
카드 테이블이 도입된 이유는 다음과 같다.
Young영역에서 가비지 컬렉션(Minor GC)가 실행될 때 모든 Old 영역에 존재하는 객체를 검사하여 참조되지 않는 Young영역의 객체를 식별하는 것이 비효율적이기 때문이다. 그렇기 때문에 Young 영역에서 가비지 컬렉션이 진행 될 때 카드 테이블만 조회하여 GC의 대상인지 식별 할 수 있도록 하는 편의성이 있다.
■ 3. Garbage Collection의 동작 방식 ■
키워드
Stop The Wolrd(애플리케이션의 실행 멈춤), Mark(사용 유무 메모리 식별작업), Sweep(Mark에서 사용하지 않는 메모리 해제 작업)
Minor GC(Eden[최초 할당], Survivor[Eden영역에서 살아남은 객체가 존재하는 영역)
bump-the-pointer 기술(Edne 영역에 할당된 마지막 객체를 추적), TLABs기술(각각의 쓰레드마다 Eden 영역에 객체를 할당하기 위한 주소를 부여함으로써 동기화 작업 없이 빠르게 메모리를 할당하도록 하는 기술)
Major GC(Young영역의 객체들이 계속 이동되어 Old 영역의 메모리가 부족해지면 발생)
■ 3-1. 세부적인 동작방식이 다른 가비지 컬렉션은 실행될때 2가지 공통적인 단계를 거친다.
Young영역과 Old영역은 서로 다른 메모리 구조로 되어 있기 때문에, 세부적인 동작 방식이 다르다.
하지만, 기본적으로 가비지 컬렉션이 실행된다고 하면 2가지 공통적인 단계를 거치게 된다.
- Stop The World
- Mark and Sweep
■ 3-1-1.Stop The World
Stop The Word는 가비지 컬렉션을 실행하기 위해 JVM이 애플리케이션의 실행을 멈추는 작업이다.
GC가 실행될 때는 GC를 실행하는 쓰레드를 제외한 모든 쓰레드들의 작업이 중단되고, GC가 완료되면 작업이 재개된다.
[ 당연히 모든 쓰레드들 작업이 중단되면 애플리케이션이 멈추기 때문에, GC의 성능 개선을 위해 튜닝을 한다고 하면 보통 Stop-The-World의 시간을 줄이는 작업을 하는 것이다. ]
■ 3-1-2. Mark and Sweep
- Mark : 사용되는 메모리와 사용되지 않는 메모리를 식별하는 작업
- Sweep : Mark 단계에서 사용되지 않음으로 식별된 메모리를 해제하는 작업
Stop-The-World를 통해 모든 작업을 중단시키면, GC는 스택의 모든 변수 또는 Reachable 객체를 스캔하면서 각각이 어떤 객체를 참고하고 있는지를 탐색하게 된다. 그리고 사용하고 있는 메모리를 식별하는데 이 과정을 Mark 과정, Mark 과정에서 사용하지 않음므로 식별된 객체들을 메모리에서 제거하는 과정을 Sweep 과정 이라고 한다.
■ 3-2. Minor GC의 동작 방식
Minor GC를 정확히 이해하기 위해서는 Young 영역의 구조에 대해 이해를 해야 한다. Young 영역은 1개의 Eden과 2개의 Survivor영역, 그러므로 총 3가지로 나뉘어진다.
- Eden 영역 : 새로 생성된 객체가 할당 되는 영역
- Survivor 영역 : 최소 1번의 GC 이상 살아남은 객체가 존재하는 영역
객체가 새롭게 생성되면 Young 영역 중에서도 Eden 영역에 할당된다. 그리고 Eden영역이 꽉 차면 Minor GC가 발생하게 된다. 사용하지 않는 메모리는 해제되고 Eden 영역에 존재하는 객체(사용중인)는 Survivor 영역으로 옮겨지게 된다.
Survivor 영역은 총 2개이지만 반드시 1개의 영역에만 데이터가 존재해야 한다.
위에서 말한 내용의 구체적인 Young 영역의 동작 순서를 살펴보도록 하자.
- 새로 생성된 객체가 Eden 영역에 할당된다.
- 객체가 계속 생성되어 Eden 영역이 꽉차게 되고 Minor GC가 실행된다. [ 단, Servivor 영역 중 하나는 반드시 비어있어야한다. ]
- Eden 영역에서 사용되지 않는 객체의 메모리가 해제된다.
- Eden 영역에서 살아남은 객체는 1개의 Surivivor 영역으로 이동된다.
- 1~2번의 과정이 반복되다가 Surivivor 영역이 가득 차게 되면 Suvivor 영역의 살아남은 객체를 다른 Survovivor 영역으로 이동시킨다.(1개의 Survivor 영역은 반드시 빈 상태가 된다.) [ 단, 여기서 Servivor 영역을 거치지 않고 바로 Old 영역으로 이동하는 경우가 있는데, 바로 객체의 크기가 Servior 영역의 크기보다 큰 경우이다. ]
- 이러한 과정을 반복하여 계속해서 살아남은 객체는 Old 영역으로 이동된다.
객체의 생존 횟수를 카운트하기 위해 Minor GC에서 객체가 살아나은 횟수를 의미하는 age를 Object Header에 기록한다. 그리고 Minor GC때 Object Header에 기록된 age를 보고 이동여부를 결정한다.
또한 Survivor 영역 중에 1개는 반드시 사용이 되어야 한다.
[ 만약 두 Survivor 영역에 모두 데이터가 존재하거나, 모두 사용량이 0이라면 현재 시스템이 정상적인 상황이 아님을 파악 할 수 있다. ]
참고로 HotSpot VM에서는 보다 빠른 메모리 할당을 위해서 두 가지 기술을 사용한다.
- bump-the-pointer 기술 : Eden 영역에 마지막으로 할당된 객체의 주소를 캐싱(컴퓨터의 성능을 향상시키기 위해 사용되는 메모리에서 데이터를 가져와 접근하는 방식)해두는것
- TLABs(Thread-Local Allocation Buffers) 기술 : 각각의 쓰레드마다 Eden 영역에 객체를 할당하기 위한 주소를 부여함으로써 동기화 작업 없이 빠르게 메모리를 할당하도록 하는 기술
bump-the-pointer는 Eden 영역에 할당된 마지막 객체를 추적한다. 마지막 객체를 추적한다. 마지막 객체는 Eden 영역의 맨 위에 있다.
그 다음에 생성되는 객체가 있으면, 해당 객체의 크기가 Eden 영역에 넣기 적당한지만 확인한다. 만약 객체의 크키가 적당하고 판정되면 Eden 영역에 넣게 되고, 새로 생성된 객체가 맨 위에 있게 된다.
==> 새로운 객체를 생성할 때 마지막에 추가된 객체만 점검하면 되므로 매우 빠르게 메모리 할당이 이루어진다.
그러나 멀티 스레드 환경을 고려한다면 이야기가 달라진다. Thread-Safe하기 위해서 만약 여러 쓰레드에서 사용하는 객체를 Eden 영역에 저장하려면 락(lock)[ 여러 스레드 간에 자원을 접근하는 매커니즘 제공 ]이 발생할 수 밖에 없고, lock-contention[ lock을 획득하고자 하는 스레드가 2개 이상인 경우, 서로 경쟁하게 되며 경쟁으로 인해 락을 더 획득한 스레드와 덜 획득한 스레드가 생기게 되는 상황] 때문에 성능은 매우 떨어지게 될 것이다. HotSpot VM에서 이를 해결한 것이 TLABs이다.
==> TLABs(Thread-Local Allocation Buffers)란 각각의 쓰레드마다 Eden 영역에 객체를 할당하기 위한 주소를 부여함으로써 동기화 작업 없이 빠르게 메모리를 할당하도록 하는 기술이다. 각각의 쓰레드는 자신이 갖는 주소에만 객체를 할당함으로써 동기화 없이 bump the pointer를 통해 빠르게 객체를 할당하고 있다.
Minor GC에서 꼭 기억해야 할 점은
- Eden 영역에 최초로 객체가 만들어짐
- Survivor 영역을 통해서 Old 영역으로 오래 살아남은 객체가 이동함
■ 3-3. Major GC의 동작 방식
Young 영역에서 오래 살아남은 객체는 Old 영역으로 이동됨을 확인 할 수 있었다.
Major GC는 객체들이 계속 이동되어 Old 영역의 메모리가 부족해지면 발생하게 된다.
Young 영역은 일반적으로 Old 영역보다 크기가 작기 때문에 GC가 보통 0.5초에서 1초 사이에 끝난다.
==> Minor GC는 어플리케이션에 크게 영향을 주지 않는다.
Old 영역은 Young 영역보다 크며 Young 영역을 참조할 수도 있다.
==> Majer GC는 일반적으로 Minor GC보다 오래걸리며, 10배 이상의 시간을 사용한다.
■ 4. GC 방식에 따라서 처리 절차가 달라진다 어떤 방식이 있는지 알아보자. ■
키워드
Serial GC(Old 영역에서 Mark Sweep Compact[객체가 존재하는 부분과 존재하지 않는 부분으로 나누는것] 알고리즘 사용, cpu 코어 1개 일 때 사용하기 위함)
[ 쉽게 말해, 살아있는 객체를 식별(Mark), Old영역의 가장 앞부분 부터 살아 있는 것만 남기고 삭제하며(Sweep), 마지막으로 살아있는 객체들을 가장 앞쪽으로 모아준다.(Compact) ]
Parallel GC(멀티 프로세서 또는 멀티 쓰레드 머신에서 중간 규모부터 대규모의 데이터를 처리하는 애플리케이션을 위해 고안, 여러 개의 쓰레드를 통해 Parallel 하게 GC를 수행하여 오버헤드를 줄임,어플리케이션 멈추는 문제점)
[ 쉽게 말해, Serial GC방식과 GC 알리리즘은 같다. 하지만 단일 스레드가 GC를 수행하는 Serial GC 방식과 달리, Parallel GC 방식은 GC를 처리하는 스레드가 여러개이다. ]
Parallel Old GC(Parallel GC와 Old 영역의 GC 알고리즘만 다름, Mark SweepCompact가 아닌 Mark Summary Compaction이 사용[GC를 수행한 영역에 대해서 별도로 살아있는 객체를 식별한다는 점])
[ 쉽게 말해, Parallel GC와 비슷하다. 다만, Old영역의 GC에서 Mar-Summary-Compaction 알고리즘을 채택했다. 결국 Sweep와 Summary의 차이인데, Sweep는 단일 스레드가 Old영역 전체를 훑어 살아있는 객체만 찾아내는 방식이지만, Summary는 여러 스레드가 Old 영역을 분리하여 훑는다. 또한 효율을 위해 앞선 GC에서 Comactione(모아진)된 영역을 별도로 훑는다. ]
CMS(Concurrent Mark Sweep) GC(애플리케이션의 지연 시간을 최소화 하기 위해 고안, Mark Sweep 알고리즘을 Concurrent(동시성, 같은 종류의 작업이 가능한 많이 동시에 일어나는것을 추구)하게 수행, 다른 GC방식보다 메모리와 CPU를 더 많이 필요로 하며, Compaction 단계(나누는 단계)를 수행하지 않는다는 단점, 응답은 멈추지 않지만 시간이 길어지는 문제점
[ 쉽게 말해, Intial Mark 단계에서는 클래스 로더에서 가장 가까운 객체 중에서만 살아있는 객체를 찾는다.(멈추는 시간이 매우 짧다.)
ConcurrentMark단계에서는 InitalMark단계에서 살아남은 객체의 참조를 따라가며 살아있는 객체를 찾는다.(이때 여러개의 스레드 동작)
Remark단계에서는 Concurrent Mark를 수행하는 동안 객체의 참조가 끊기거나, 새롭게 생긴 객체가 없는지 다시 확인한다.
ConcurrentSweep 단계에서는 쓰레기를 정리한다.
CMS GC는 별도의 Compaction(모아줌)이 없음을 유의한다. 또한 stop-the-world 시간이 매우 짧은 장점이 있지만, 그만큼 시스템 자원을 더 많이 사용하는 단점과 Compation 단계가 없어 Old 영역의 크기가 충분하지 않거나 크기에 비해 조각난 메모리가 많을 경우 오히려 stop-th-world 시간이 늘어날 수 있다. ]
G1(Garbage First) GC( 장기적으로 많은 문제를 일으킬 수 있는 CMS GC를 대체하기 위해 고안, Region(지역)이라는 개념을 새로 도입하여 Heap을 균등하게 여러 개의 지역으로 나누고, 각 지역을 역할과 함께 논리적으로 구분하여 객체를 할당, Heap을 동일한 크기의 Region으로 나누고, 가비지가 많은 Region에 대해 우선적으로 GC를 수행하는 것
[ 쉽게 말해, 앞에 소개한 GC 방식들은 모두 Young영역과 Old영역이 정해져서 나뉘어져 있었지만, G1 GC는 바둑판 모양의 영역이 각각 Eden, Survivor, Old 역할을 동적으로 바꿔가면 GC가 일어난다. ]
- Serial GC
- Parallel GC
- Parallel Old GC(Parallel Compacting GC)
- Concurrent Mark & Sweep GC(이하 CMS)
- G1(Garbage First) GC
■ 4-1. Serial GC
Serial GC의 Young 영역은 앞서 설명한 알고리즘 Mark(사용되는 메모리와 사용되지 않는 메모리를 식별하는 작업),Sweep(Mark 단계에서 사용되지 않음으로 식별된 메모리를 해제하는 작업) 알고리즘대로 수행된다.
하지만 Old 영역에서는 Mark Sweep Compact 알고리즘이 사용되는데, 기존의 Mark Sweep에 Compact라는 작업이 추가 되었다.
Compact는 Heap 영역을 정리하기 위한 단계로 유효한 객체들이 연속되게 쌓이도록 힙의 가장 앞부분부터 채워서 객체가 존재하는 부분과 존재하지 않는 부분으로 나누는 것이다.
[ Serial GC는 서버의 CPU 코어가 1개 일 때 사용하기 위해 개발되었으며, 모든 GC 일을 처리하기 위해 1개의 쓰레드만을 이용한다.
그렇기 때문에 CPU 코어가 여러 개인 운영 서버에서 Serial GC를 사용하는 것은 반드시 피해야 한다. ]
[Mark Sweep]
살아있는 객체는 Eden영역에 올라간다 -> Eden영역이 꽉차면 To Servivor영역으로 '살아있는 객체'를 이동시킨다 -> To Servivor영역이 꽉 찰경우 Eden, FromServivor영역에 남은 객체를 Old영역으로 이동시킨다
[Mark Sweep Compact]
살아있는 객체를 찾아 표시한다 -> Old 영역을 스캔하여 쓰레기 객체를 표시한다 -> 쓰레기 객체를 지우고 살아있는 객체를 모은다
■ 4-2. Parallel GC
Parallel GC는 Throughput GC로도 알려져 있으며, 기본적인 처리 과정은 Serial GC와 동일하다.
하지만 Parallel GC는 여러 개의 쓰레드를 통해 Parallel 하게 GC를 수행함으로써 GC의 오버헤드를 상당히 줄여준다.
[ Parallel GC는 멀티 프로세서 또는 멀티 쓰레드 머신에서 중간 규모부터 대규모의 데이터를 처리하는 애플리케이션을 위해 고안되었으며, 옵션을 통해 애플리케이션의 최대 지연 시간 또는 GC를 수행할 쓰레드의 갯수 등을 설정 해 줄 수 있다.]
[ Parallel GC가 GC의 오버 헤드를 상당히 줄여주었고, Java8까지 기본 GC로 사용되었다. 그럼에도 불구하고 애플리케이션이 멈추는 것은 피할 수 없었고, 이러한 부분을 개선하기 위해 다른 알고리즘이 더 등장하게 되었다. ]
■ 4-3. Parallel Old GC
Parallel Old GC는 JDK5 update6부터 제공한 GC이며, 앞서 설명한 Parallel GC와 Old 영역의 GC 알고리즘만 다르다.
Parallel Old GC에서는 Mark SweepCompact가 아닌 Mark Summary Compaction이 사용되는데,
Summary 단계에서는 앞서 GC를 수행한 영역에 대해서 별도로 살아있는 객체를 식별한다는 점에서 다르며 조금 더 복잡하다.
[Parallel Old GC]
살아있는 객체를 표시한다 -> 이전 GC에서 살아있는 객체의 위치를 조사한다 -> 컴펙션을 수행한다
■ 4-4. CMS(Concurrent Mark Sweep) GC
CMS(Concurrent Mark Sweep) GC는 Parallel GC와 마찬가지로 여러 개의 쓰레드를 이용한다.
하지만 기존의 Serial GC나 Parallel GC와는 다르게 Mark Sweep 알고리즘을 Concurrent(동시성, 같은 종류의 작업이 가능한 많이 동시에 일어나는것을 추구)하게 수행하게 된다.
이러한 CMS GC는 애플리케이션의 지연 시간을 최소화 하기 위해 고안되었으며, 애플리케이션이 구동중 일 때 프로세서의 자원을 공유하여 이용가능해야 한다.
==> CMS GC가 수행될 때에는 자원이 GC를 위해서도 사용되므로 응답이 느려질 순 있지만 응답이 멈추지는 않게 된다.
하지만 이러한 CMS GC는 다른 GC방식보다 메모리와 CPU를 더 많이 필요로 하며, Compaction 단계(나누는 단계)를 수행하지 않는다는 단점이 있다.
==> 시스템이 장기적으로 운영되다가 조각난 메모리들이 많아 Compaction 단계가 수행되면 오히려 Stop The World(GC를 위해 JVM이 어플리케이션을 멈춤) 시간이 길어지는 문제가 발생할 수 있다.
[ 만약 GC가 수행되면서 98% 이상의 시간이 CMS GC에 소요되고, 2% 이하의 시간이 Heap의 정리에 사용된다면, CMS GC에 의해 OutOfMemoryError가 던져질 것이다. 물론 이를 사용하지 않는 옵션이 있지만, CMS GC는 java9 버젼부터 deprecated(사용해도 되긴 하지만 권장하지 않음)되었고, 결국 java14에서는 사용이 중지되었기 때문에 더 알아볼 필요는 없다. ]
[CMS(Concurrent Mark Sweep) GC]
짧은 대기 시간으로 살아있는 객체를 찾는다 -> 서버 수행시 살아있는 객체에 표시를 한다 -> 표시 도중에 변경된 객체에 대해 다시 표시한다 -> 표시된 쓰레기를 정리한다. [컴팩션을 하지 않아 메모리 모아주는 작업이 필요하다.[
■ 4-5. G1(Garbage First) GC
G1(Garbage First) GC는 장기적으로 많은 문제를 일으킬 수 있는 CMS GC를 대체하기 위해 개발되었고, java 7부터 지원 시작했다.
기존의 GC 알고리즘에서는 Heap 영역을 물리적으로 Young 영역(Eden 영역과 2개의 Survivor 영역)과 Old 영역으로 나누어 사용하였다.
G1 GC는 Eden 영역에 할당하고, Survivor로 카피하는 등의 과정을 사용하지만 물리적으로 메모리 공간을 나누지 않는다.( Young영역과 Old영역으로 나누는 방식을 사용하지 않는다. )
==> 대신 Region(지역)이라는 개념을 새로 도입하여 Heap을 균등하게 여러 개의 지역으로 나누고, 각 지역을 역할과 함께 논리적으로 구분하여 (Eden 지역인지, Survivor 지역인지, Old 지역인지) 객체를 할당한다.
G1 GC에서는 Eden, Survivor, Old 역할에 더해 Humongous와 Availabe/Unused라는 2가지 역할을 추가 해줬다.
- Humongous : Region 크기의 50%를 초과하는 객체를 저장하는 Region을 의미
- Availabe/Unused : 사용되지 않은 Region을 의미
G1 GC의 핵심은 Heap을 동일한 크기의 Region으로 나누고, 가비지가 많은 Region에 대해 우선적으로 GC를 수행하는 것이다.
G1 GC도 다른 가비지 콜레션과 마찬가지로 2가지 GC(Minor GC, Major GC)로 나누어 수행되는데, 각각 살펴보자.
■ 4-5-1. Minor GC
한 지역에 객체를 할당하다가 해당 지역이 꽉 차면 다른 지역에 객체를 할당하고, Minor GC가 실행된다.
- G1 GC는 각 지역을 추적하고 있기 때문에, 가비지가 가장 많은(Garbage First)지역을 찾아서 Mark and Sweep를 수행한다.
- Eden 지역에서 GC가 수행되면 살아남은 객체를 식별(Mark)하고, 메모리 회수(Sweep)하고 살아남은 객체를 다른 지역으로 이동시킨다.
- 복제되는 지역이 Available/Unused 지역이면 해당 지역은 이제 Survivor 영역이 되고, Eden 영역은 Available/Unused 지역이 된다. ( 서로 상태가 바뀜)
■ 4-5-2. Major GC
시스템이 계속 운영되다가 객체가 너무 많아 빠르게 메모리를 회수 할 수 없을 때 Major GC가 실행된다. 여기서 G1 GC와 다른 GC의 차이점이 나타난다.
기존의 다른 GC 알고리즘은 모든 Heap 영역에서 GC가 수행되었으며, 그에 따라 처리 시간이 상당히 오래 걸렸다.
G1 GC는 어느 영역에 가비지가 많은지를 알고 있기 때문에 GC를 수행할 지역을 조합하여 해당 지역에 대해서만 GC를 수행한다. 그리고 이러한 작업은 Concurrent(동시성, 같은 종류의 작업이 가능한 많이 동시에 일어나는것을 추구)하게 수행되기 떄문에 애플리케이션의 지연도 최소화 할 수 있는 것이다.
==> 지역을 나눠놓았고, 이것을 Concurent하기 때문이다. 그렇기에 가비지가 많은 지역에 대한 정리를 할때 훨씬 효율적이다.
앞에서 말한 이러한 점들 때문에 G1 GC는 당연히 앞의 어떠한 GC 방식보다 처리 속도가 빠르며 큰 메모리 공간에서 멀티 프로세스 기반으로 운영되는 애플리케이션을 위해 고안되었다.
==> G1 GC는 다른 GC 방식의 처리속도를 능가하기 때문에 Java9부터 기본 가비지 컬렉터로 사용되게 되었다.
참고자료
https://mangkyu.tistory.com/119