논문 — 오도열

논문

KAIST 강화학습 개론 · 프로젝트 · 2606

한국식 4구 당구: 추론 시점 탐색으로 푸는 연속·결정론적·희소 보상 벤치마크

포켓이 없는 캐롬 게임인 한국식 4구(사구)를 연속적·결정론적·희소 보상 강화학습 벤치마크로 정식화하고, 빠르고 정확한 물리 시뮬레이터를 구축했다. Off-policy RL(SAC/TD3)은 PPO보다 약 2.5배 우수하지만, 더 많은 학습량·커리큘럼·학습된 보상 모델을 더해도 원 과제는 이닝당 1점 아래에서 정체된다. 최초 접촉을 보장하는 조준 제약과 4개의 캐롬 기하 피처를 더하면 SAC 점수가 0.487에서 6.460점/이닝으로 뛴다. 마지막 도약은 추론 시점 탐색에서 나온다 — 시뮬레이터를 자체 검증기로 쓰는 탐욕적 depth-2 lookahead는 약 6점짜리 정책을 최대 9,392연속 득점·샷당 99.8% 성공률의 체인으로 바꾼다.

한국식 4구 시뮬레이터에서 무작위로 배치된 큐볼, 상대 큐볼, 적구 두 개

KAIST 소프트웨어 테스팅 자동화 · 프로젝트 · 2606

ASTraMut: 실제 버그 수정 패턴으로부터 Java Mutation Operator 학습하기

오도열, 박현지, 장준서, 이동재

실제 버그 수정 커밋에서 AST 수준의 편집 패턴을 추출해 anti-unification으로 일반화하고, 학습된 수정을 뒤집어 mutation operator로 사용하는 Java mutation operator 학습기다. Defects4J에서 병합된 상위 100개 연산자 세트는 동일한 관련 테스트 스위트 기준 PIT 기본 연산자 대비 1.94% 낮은 mutation score를 기록했고, API 이름 변경·전체 조건식 부정·블록 구조 재작성처럼 PIT의 고정된 연산자 목록으로는 표현할 수 없는 버그 패턴군까지 다룬다.

ManySStuBs4J, Bugs2Fix, PIT 기본 mutation operator 간 중첩을 나타낸 벤 다이어그램

KAIST 인공지능 개론 · 과제 3 · 팩맨 경연대회 상 · 2605

자기-대전으로 튜닝된 휴리스틱 기반 캡처-더-플래그 팩맨

오도열

2대2 CTF 팩맨에서 deep RL 대신 hand-inspectable 42차원 선형 평가함수와, zoo-overfitting을 차단하는 held-out 검증 프로토콜로 일반화를 만든 팀이다. 학생 라운드로빈이 unseen distribution이라는 점을 정면에서 다룬 게 핵심이다.

KAIST 인공지능 개론 · 과제 2 · 2604

팩맨 다중 에이전트 탐색: Reflex, Minimax, Alpha-Beta

오도열

적대 다중 에이전트 탐색에서 흔히 한 덩어리로 묶이는 세 효과를 분리해 보인 분석이다. 행동 ordering이 가지치기 효율과 tie-breaking 두 차원으로 갈라진다는 점, 무작위 유령 앞에서 Minimax는 평가함수가 아니라 pessimism cascade로 깨진다는 점, 좁은 맵에서 −1 living penalty가 즉사를 지연된 죽음보다 strictly 높은 값으로 만들어 팩맨이 유령에게 돌진하는 "swift-death preference"가 나타난다는 점이다.

KAIST 인공지능 개론 · 과제 1 · 2603

팩맨 그래프 탐색: DFS, BFS, UCS, A*

오도열

DFS·BFS·UCS·A* 구현과 함께, Manhattan 대비 평균 34.4% 적은 노드를 expand하는 admissible 휴리스틱(Blockage Detection + Tarjan articulation Portal + dead-end peeling)을 제안한다. 다만 per-call 전처리 비용 때문에 단일 쿼리 wall-clock은 오히려 늦어진다 — 탐색 품질 vs 평가자 비용 트레이드오프를 깔끔하게 보인 사례다.

UNIST 기계학습 · 파이널 프로젝트 보고서 · 2512

SKiP: K-최근접 이웃과 클래스 확률로 가중된 이상치 완화 SVM

오도열, 박정훈, 김재민, 이강준

특성 이상치 검출(클래스 가우시안 확률 p_i)과 라벨 이상치 검출(KNN 라벨 일관성 n_i)을 한 SVM에 통합하는 가중 슬랙 패널티 C_i = C·(p_i + n_i)/2를 제안한다. 곱셈이 아닌 가산 평균이 핵심으로, 한 신호가 무너져도(예: 가우시안이 깨지는 Titanic) 다른 쪽이 받쳐 "weakest link" 문제를 회피한다.

한국데이터베이스학회 학술대회 (KDBC) 2025 · 2511

위치 기반 소셜 네트워크에서 공간 근접 커뮤니티 탐지를 위한 엔트로피 가중 적응형 라벨 전파 알고리즘

오도열, 김혜원, 김다희, 김정훈

라벨 엔트로피로부터 α = 1 − H/log|L|를 산출해, 구조 유사도(Jaccard)와 위치 유사도(Haversine)의 비중을 노드별로 적응 조절하는 라벨 전파를 제안한다. 이웃 라벨이 일치하면 구조가, 어긋나면 위치가 주도하면서 — 구조적으로 연결되어 있지만 지리적으로 떨어진 도시(예: 내슈빌·애틀랜타)를 시각적으로 분리한다.

UNIST 알고리즘 · 최우수논문상 · 2506

Hylos: TSP에서 계층적으로 국소화된 최적화 전략

오도열

k-means로 도시를 22개 이하 클러스터로 쪼개 Held-Karp가 가능하게 만든 뒤, 클러스터 간/내부 TSP 모두 크기로 Held-Karp/Christofides를 갈라 푸는 4단계 하이브리드 솔버를 제안한다. mona-lisa100k에서 Christofides보다 약 8배 빠르고 비용도 약 2% 낮다. UNIST CSE331 최우수논문상.

UNIST 알고리즘 · 과제 1 · 2504

12종 정렬 알고리즘 비교 연구

오도열

12종 정렬을 C++로 구현해 10³~10⁶ 입력에서 벤치마크한 보고서다. 새로 확인한 건 두 가지 — Lomuto Quick은 정렬 입력에서 불균형 재귀로 크래시하므로 중간값-3 피벗이 사실상 필수라는 점, 그리고 멀티스레드 Tim 변형은 스레드 오버헤드가 병합 이득을 상회해 단일 스레드보다 느려진다는 점이다.

ICROS (제어로봇시스템학회) 2024 · 2407

실내 공유형 모빌리티의 핸즈프리 구동을 위한 직관적 조향기술 개발

남동훈, 오도열, 이성재, 곽윤정, 이희승

안장의 회전을 가변저항으로 읽고 STM32F303RE 기반 PID로 조향 모터를 추종하는, 핸들 없는 의자형 실내 모빌리티를 제안한다. 엑셀도 제거하고 발구름 시동으로 대체했다 — 이동 중에는 두 손과 발이 자유롭고, 멈추면 그대로 의자가 된다.

특허

2602

엔트로피 가중 적응형 라벨 전파 기반의 공간 근접 커뮤니티 탐지 시스템 및 방법

KR 10-2026-0027653 · 출원 2026-02-11

이런 논문들을 썼어요

논문

한국식 4구 당구: 추론 시점 탐색으로 푸는 연속·결정론적·희소 보상 벤치마크

ASTraMut: 실제 버그 수정 패턴으로부터 Java Mutation Operator 학습하기

자기-대전으로 튜닝된 휴리스틱 기반 캡처-더-플래그 팩맨

팩맨 다중 에이전트 탐색: Reflex, Minimax, Alpha-Beta

팩맨 그래프 탐색: DFS, BFS, UCS, A*

SKiP: K-최근접 이웃과 클래스 확률로 가중된 이상치 완화 SVM

위치 기반 소셜 네트워크에서 공간 근접 커뮤니티 탐지를 위한 엔트로피 가중 적응형 라벨 전파 알고리즘

Hylos: TSP에서 계층적으로 국소화된 최적화 전략

12종 정렬 알고리즘 비교 연구

실내 공유형 모빌리티의 핸즈프리 구동을 위한 직관적 조향기술 개발

특허

엔트로피 가중 적응형 라벨 전파 기반의 공간 근접 커뮤니티 탐지 시스템 및 방법