Round 2에서는 총 다섯 단계의 전략을 기반으로 모델을 구성하고 학습을 진행하였습니다.
각 단계는 주행 안정성 확보, 센서 확장, 학습 전략 개선, 그리고 보상 조건의 정밀화에 중점을 두고 설계되었습니다.
- 학습 목표: Off-track 최소화 및 중심선 유지
- 센서 구성: 단일 카메라 센서
- 핵심 전략:
- Round 1에서 사용한 중심선 기반 보상 함수 재사용
- **충돌 감지 함수
is_crashed()**를 추가하여 안정성 강화
- 결과 요약:
- 보상 값은 상승했으나 완주율이 낮아 랩타임 측정 어려움
📁 경로: src/model_1/reward_function.py
- 학습 목표: 센서 확장과 보상 곡선의 부드러운 정규화
- 센서 구성: 카메라 + LiDAR
- 핵심 전략:
- 중심선 거리 기반 보상에서 정규화된 곡선 보상으로 전환
- LiDAR 각도별 거리값을 이용해 특정 방향(정면, 측면) 장애물 회피 보상 추가
- 결과 요약:
- 완주율 약 **73%**로 향상
- 하지만 랩타임은 1분 이상, 충돌 빈도가 높아 실질적 성능은 미흡
📁 경로: src/model_2/reward_function.py
- 학습 목표: Curriculum Learning 기반 최적 학습 순서 구성
- 전략 구성:
- 1단계: 장애물 회피 요소 제거 → Time Trial 최적화
- 2단계: 학습된 모델을 복제 → 장애물 회피 및 차선 인식 보상 추가
- 결과 요약:
- 구조적 학습 설계에도 불구하고 불안정한 평가 지표 유지
- 여전히 낮은 lap time 성능 확인됨
📁 경로: src/model_3/reward_function.py
- 학습 목표: Model 1~3 전략 통합 및 정밀 보상 설계
- 센서 활용: 카메라 + LiDAR
- 핵심 전략:
- 주행 유지: 중심선 거리 보상 +
all_wheels_on_track유지 - 회피 전략:
- LiDAR 중심 및 측면 거리 기반 감점
- 객체 거리 및 차선 위치 불일치 시 감점 적용
- 회피 보상
reward_avoid에 가중치 4.0 부여 → 적극적 회피 유도
- 주행 유지: 중심선 거리 보상 +
- 결과 요약:
- 가장 정밀하고 실용적인 회피 전략 모델로 설계됨
📁 경로: src/model_4/reward_function.py
- LiDAR 기반 거리 정보 시각화