두 번 생각하는 두 학회 여행기
좋은 기회로 2주 연속으로 큰 국제 학회에 참석하게 되었다. 서울에서 열린 PLDI 와 노르웨이 트론하임에서 열린 FSE 에 연달아 참석하면서 밀도 있게 두 분야의 연구를 접할 수 있었다.
| FSE에서 UnitCon 우수 논문상 수상 후 으쓱한 시간 |
PLDI 와 FSE 에서 언어 모델을 이용하는 방법
두 학회는 각각 PL 과 SE 분야에서 손꼽히는 큰 국제적인 학회다. 두 분야 모두 프로그램 그 자체를 연구 대상으로 본다. 그래서 언어 모델을 사용하는 방식도 큰 틀에서는 비슷한데, 입출력에 프로그램이 사용된다는 점이다. 우선 요구사항이나 실행 예시 등 프로그램과 관련된 정보를 해석하는 데 언어 모델을 사용한다. 예를 들어 PLDI 마지막 날 키노트였던 Işıl Dillig의 발표에서 다양한 도메인에서의 프로그램 합성 기술이 소개되었는데, 비디오로 작성된 입출력 예시와 같이 프로그래밍 언어 외적인 입력을 다루는 데 언어 모델을 사용했다. FSE에서 발표된 Hossain 등1의 연구는 자연어로 작성된 개발 문서를 읽는 데 언어 모델을 사용하고, Wang 등2의 연구는 GUI 입력을 해석하는 데 언어 모델을 사용했다.
다음으로 프로그램 코드를 작성하는 데 언어 모델을 사용한다. PLDI의 인더스트리 세션에서 있었던 공순호 박사님의 발표에서는 언어 모델을 이용해서 Lean 증명 프로그램을 작성하는 문제가 소개되었다. 언어 모델이 필요한 이유와 Lean 프로그램을 더 잘 작성하기 위해 필요한 강화 학습 등의 학습 방법, 좋은 데이터를 수집하는 방법 등의 문제를 제시하기도 했다. 이 외에도 테스트 케이스3 나 패치45 등 다양한 형태의 프로그램 코드를 작성하는 데 언어 모델을 사용하고 있었다. 다소 당연할 수도 있지만, 이렇게 프로그램을 언어 모델의 입출력으로 사용한다는 점이 두 분야의 공통적인 특징을 보여준다고 생각했다. 내게도 프로그램은 유용한 도구이면서 재미있는 연구 대상이다.
하지만 두 학회의 연구에는 차이도 있었다. 내가 가장 크게 느낀 차이점은 두 분야에서 문제와 해결책을 정의하는 순서가 다르다는 점이다. 언어 모델을 활용해서 해결하고자하는 문제의 범위와 언어 모델의 능력 범위를 설정할 때 우선 순위가 달랐다. 우선 PLDI 에서 접한 연구는 문제의 범위를 먼저 설정하고 그 안에서 언어 모델이 동작하도록 제한하는 방식으로 접근했다. 위에서 언급한 Işıl Dillig의 키노트에서 소개되었던 일련의 연구도 이렇게 볼 수 있다. 언어 모델이 사용할 수 있는 DSL 을 먼저 정의하고, 그 언어 안에서 언어 모델이 프로그램을 작성하게 한다. 또, Mündler 등6은 타입 시스템 기반의 조건부 생성 (Constrained decoding) 기술을 제안했다. 언어 모델이 작성할 수 있는 코드의 타입 시스템을 정밀하게 정의하고, 언어 모델이 그 범위 밖에서는 코드를 생성할 수 없도록 제한하는 방법이다.
반면 FSE 에서 접한 연구는 다양한 관점에서 폭넓게 언어 모델의 능력을 파악하려고 했다. 리서치 트랙 뿐만 아니라 인더스트리나 아이디어 트랙을 포함해서 언어 모델의 능력을 평가하는 다양한 벤치마크 연구들이 있었다. 예를 들어 COFFEE7는 기존에 있던 언어 모델 평가 벤치마크를 확장해서 성능 평가를 함께 할 수 있게 만드는 기술이다. 언어 모델의 환각 현상을 평가하거나8 언어 모델이 작성한 코드의 코딩 스타일을 평가9 하려는 연구도 있었다. 이렇게 언어 모델의 능력을 먼저 파악하고 나면 풀고자 하는 문제의 범위에 맞는 언어 모델을 선택하거나, 필요한 능력을 끌어올리기 위해 추가 학습을 하기도 한다. 특히 LWO10는 이런 관점에서 더 나아간 연구였다. 언어 모델을 특정 과제에 적응시킬 때, 더 효율적으로 학습하기 위한 PEFT 방법을 제안했다.
두 학회를 연달아 참석하다보니 언어 모델을 활용하는 방식 차이를 느낄 수 있었다. 물론 두 학회에 발표된 논문들이 내 기준에 따라 명확하게 나뉘는 것은 아니다. 하지만 이런 여러 갈래의 기술들 사이에서 우리가 지금 하고 있는 연구의 위치는 어디인지, 앞으로 하고 싶은 연구가 어떤 방향인지 고민해볼 수 있었다. 특히 FSE에서는 수진님, 교수님과 쉬는 시간마다 다양한 내용에 대해서 토론하면서 생각을 구체화할 수 있어서 좋았다. 이미 PLDI에서 다양한 최신 연구를 접하면서 새로운 관점이 생기기 시작했을때라 더 생각이 발산하고 있었다. 나는 조건부 생성에대해서 고민하고 있었고, 교수님은 언어 모델을 이용한 증명 생성에 관심이 있었다. 셋이 함께하는 연구의 다음 과제에대해서 토론하기도 했다. 가끔은 같이 이야기하고 있지만 집단적 독백 상태에 있다고 느꼈는데, 그런 대화도 즐거웠다.
학회를 가꾸고 지키는 사람들
PLDI에는 비즈니스 미팅, FSE 에는 타운홀이라는 이름으로 학회의 성과를 공유하고 앞으로 학회의 발전을 논의하는 자리가 있었다. PLDI 비즈니스 미팅은 2일차 저녁식사 직전에 한시간이 넘는 긴 시간동안 진행되었는데도 참석한 사람이 많았다. 시작할 때 한글의 우수성을 자랑하는 발표가 먼저 있었는데, PL 의 연산자 오버로딩, 오버라이딩 같은 개념을 도입해서 한글의 시스템을 해석한게 재밌었다. 참석자들도 자주 웃었는데 이렇게 기술적인 유머로 다같이 웃을 수 있다는 데에서 결국 비슷한 사람들이라는 친근감을 느끼기도 했다. 학회의 참석자 수나 채택율 등 올해의 학회에대한 통계 보고가 있었고, 내년의 PLDI 소개도 이어졌다.
마지막에는 학회에 있는 문제점과 이를 해결하는 방법에대해 토론하는 시간이 있었다. 몇가지 주제가 있었는데, 모의 리뷰 (Shadow PC) 제도에 관한 내용도 언급되었다. 처음 리뷰를 시작하는 PC 들을 위해 교육이 필요하다는 의견이 있었고, 한 학생이 모의 리뷰 제도를 제안했다. 학회 일정 중 만났던 학생이었는데, 나와 같은 박사 3년차라고 했다. 우리 연구실에서는 나와 태은님이 이전에 모의 리뷰 제도에대해 대화했던 적이 있었다. 비슷한 시기에 있는 학생들끼리 비슷한 일에 관심을 갖게 되는건 자연스러운 일일 것이다. 이게 빨리 어른이 되고 싶은 어린이의 마음인가 생각했다.
FSE 타운홀은 늦게 참석한 탓에 토론의 후반부만 들을 수 있었다. 두 학회의 참석자 통계만 비교하면 FSE 참석자가 백여명정도 많았는데, 타운홀 참석자 수는 훨씬 적었다. 행사가 진행된 장소의 크기가 너무 커서 사람이 더 적어보였는지도 모르겠다. 하지만 적은 인원으로도 활발한 토론이 이어지고 있었는데, 주제는 대체로 PLDI 의 비즈니스 미팅에서와 비슷했다.
두 학회 모두 더 좋은 학회를 만들어가고자하는 분위기를 느낄 수 있었다. 참석자들은 적극적으로 문제를 지적하고 해결책을 제안하고 이에 대한 장단점과 예상되는 효과같은 것들을 다방면에서 토론했다. 학회가 발전하려면 새롭고 의미있는 기술도 필요하지만, 한 사회로서 학회를 유지하고 발전시키려는 노력도 필요하다.
국내에서 열리는 국제 학회
이번에 PLDI 가 서울에서 열려서 더 좋았던 점은 세계적인 연구자들이 국내에 방문했다는 점이다. 연구자들을 학교로 초대해주신 교수님들 덕분에 학회 전 며칠간은 다양한 발표가 끊이지 않았다. 학회에서의 연구 발표는 시간 제약이 있다 보니 짧고 간결하게 최신 기술 위주로 진행이 된다. 하지만 학교에서 있었던 발표는 한시간이 넘도록 연구 분야의 개요부터 최신 연구까지 다양하고 자세하게 소개가 되어서 더 깊이 배울 수 있었다. 학회 발표 보다 소규모로 진행이 되다 보니 발표 이후에 직접 질문하거나, 연사에게 우리 연구를 소개하면서 이야기 할 기회가 더 있었던 점도 좋았다. 다가오는 가을에 서울에서 국제 학회가 한번 더 예정 되어 있다. 가을에도 좋은 발표들이 있을 것 같아 기대된다.
연구실의 다른 학생들도 여행기에서 언급했지만, 교통이 편리하고 시차가 없으면서 익숙한 도시였던 점도 큰 장점이었다. 익숙한 도시에서 익숙한 교통편을 타고 학회장으로 출퇴근해서 학회에 더 집중할 수 있었다. PLDI 첫날 처음 대화했던 학생이 서울에서 관광할 거리를 물었는데, 예상하지 못해 당황했다. 하지만 나중에는 이게 장점이라는 것을 알게 되었다. 처음 만나는 사람들과 이야기할 때 좋은 소재로 사용할 수 있었다.
이어서 있을 FSE 여행을 위해 체력을 아끼느라 PLDI 를 더 적극적으로 즐기지 못했던 것은 아쉽다. 다음 일정을 걱정하느라 본 학회 일정 외의 워크샵이나 연구실 회식 등에 참석하지 않았다. 미리 체력을 더 길렀더라면 더 즐길 수 있었을텐데 하는 아쉬움이 남는다. 다음에 이런 일이 있을 때를 대비해서 운동을 더 열심히해야겠다.
UnitCon 발표와 여유가 있는 학회
연구 교류
이번 FSE에서는 저자로 참여한 UnitCon 논문이 발표되었다. 특히 우수 논문으로 선정되어 더 좋았다. 발표자인 수진님이 첫날 발표 준비로 바쁜 동안 나는 사람들과 우리 논문에대해 이야기할 기회가 있었다. 아쉽게도 UnitCon과 비슷한 분야를 연구한 사람과 깊이 토의할 기회는 없었지만, 다른 분야의 연구자들이 내 소개를 듣고 연구의 필요성에대해 공감해줄 때 신이 났다.
PLDI 를 포함해 FSE 이전까지의 학회에서 나의 주요 네트워킹 전략은 혼자 커피를 들고 서 있으면 다가오는 사람과 이야기하는 방법이었다. 하지만 FSE 에서는 그게 잘 통하지 않았다. 우선 3개 학회가 연달아 열리는 학회였고, FSE 가 그 중간에 있다 보니 사람들이 지쳐있었다. 한국인이 많아 아는 얼굴들을 만나 인사하다 보면 쉬는 시간이 금새 지나가버리기도했다. 혼자 있을 때 다가오는 사람을 기다리는 수동적인 방법으로는 사람을 만나기 어려웠다. 첫날 점심때는 사교적인 도현님의 도움으로 처음 보는 사람들과 식사하면서 대화할 수 있었는데, 그 외에는 발표자들을 찾아가 질문 몇 번 했던 것 외에 이렇다할 교류 활동이 없었다.
그래서 FSE 마지막 날에는 Doctoral Symposium 에 참석했다. 일단 포스터 발표가 있다는 점이 좋았다. 포스터 발표장에서는 모두가 돌아다니면서 연구 이야기를 하고 있으니, 나도 끼어서 말하기 좋을거라고 생각했다. 포스터 목록에 관심있는 주제들이 있는 것도 좋았다. 언어 모델을 이용해서 코드를 잘 생성하려는 기술이 몇 편 있었다. 가서 보니 작은 방에서 소규모 인원이 이야기를 하고 있어서 더 좋았다. 큰 학회장에 있을 때 보다는 부담을 덜고 다른 사람의 포스터에 다가가서 대화를 시작하기 좋았다. 특히 언어 모델에 취약점을 추가 학습하는 방법에 관한 포스터 발표가 있어서 발표자와 자세히 이야기했다. 비슷한 시기에 비슷한 주제를 연구하는 또래를 만나서 반가웠고, 더 동기부여가 되기도 했다. 이 자리에서 만난 학생들과는 서로 메일이나 링크드인 연락처를 교환하기도 했다. 다음에 기회가 된다면 직접 포스터 발표도 해보고 싶다.
도시 여행
| 해도 좋고 바람도 좋은 Munkholmen | 옛 감옥 체험 |
트론하임에 도착한 첫날에는 호텔 체크인 시간까지 여유가 있어서 관광을 했다. 배를 타고 Munkholmen 이라는 섬을 가서 가이드 투어를 들었다. 천년 전에 수도원으로 지어졌다는 건물이 있었는데, 그래서 이름이 수도사의 섬이 된 모양이다. 천년 동안 수도원은 용도를 바꿔서 요새로도 쓰이고 감옥으로도 쓰였다고 했다. 외벽이 두텁고 무뚝뚝하게 생겨서 어느 쪽이든 어울린다고 생각했다.
학회 첫날 리셉션이 도시의 주요 관광지에서 열렸다. 니다로스 성당에서 오르간 연주를 듣고 옆에 있던 대주교의 궁전에서 스파클링 와인과 핑거 푸드를 먹었다. 도시에 도착한 첫날 혼자 돌아다녔는데, 우연히 도착한 곳이 니다로스 성당이었다. 추모 공원과 높은 고딕 성당이 함께 있는데, 공원의 나무가 크고 울창해서 첫날 날씨가 좋을 때는 정말 예뻤다. 행사 일정으로 다시 갔을 때는 비가 와서 예쁜 풍경을 다시 보지 못한게 조금 아쉽다. 하지만 혼자 갔을 때는 들어가지 못한 성당 내부를 볼 수 있었던 것은 좋았다. 오래된 건물의 냄새가 났고, 스테인드글라스가 화려했다. 오르간 연주도 신기했는데, 악기가 눈앞에 있는데도 어딘가 먼 곳에서 소리가 들려오는 것처럼 들렸다. UnitCon 발표가 끝나고 즐거운 기분이어서 더 멋있어 보였는지도 모르겠다.
트론하임에 도착한 첫날과 떠나던 마지막 날을 제외하면 거의 항상 비가 내렸다. 학회 일정은 하지가 막 지난 시점이라 해가 정말 길었는데, 밤 11시에 해가 져서 새벽 3시에 해가 떴다. 어느 날은 번화가에서 맥주를 마시다가 해가 진 뒤 자정에 들어갔지만 자정의 하늘도 비 내리는 낮의 하늘과 거의 차이가 없었다. 원래도 트론하임은 365일 중 260일은 비가 내리는 도시라고 한다. 그런 중에 첫날과 마지막날 밝은 해를 봤으니 운이 좋은 셈이다.
마치며
이번 두 학회를 통해 다양한 연구를 접하고 세계적인 연구자들을 만나 교류할 수 있었다. 두번의 학회 모두 참석할 수 있게 지원해주신 지도 교수님께 감사드린다. 그리고 PLDI 와 FSE 에 참석할 수 있는 기회를 만들어 준, 멋진 동료 봉준님과 수진님에게도 감사한다.
참조
-
Hossain, Soneya Binta, Raygan Taylor, and Matthew Dwyer. “Doc2OracLL: Investigating the Impact of Documentation on LLM-Based Test Oracle Generation.” FSE 2025. ↩
-
Wang, Chenxu, et al. “LLMDroid: Enhancing Automated Mobile App GUI Testing Coverage with Large Language Model Guidance.” FSE 2025. ↩
-
Kim, Myeongsoo, Saurabh Sinha, and Alessandro Orso. “Llamaresttest: Effective rest api testing with small language models.” FSE 2025. ↩
-
Behrang, Farnaz, et al. “DR. FIX: Automatically Fixing Data Races at Industry Scale.” PLDI 2025. ↩
-
Wu, Susheng, et al. “Mystique: Automated Vulnerability Patch Porting with Semantic and Syntactic-Enhanced LLM.” FSE 2025. ↩
-
Mündler, Niels, et al. “Type-Constrained Code Generation with Language Models.” PLDI 2025. ↩
-
Peng, Yun, et al. “Coffe: A code efficiency benchmark for code generation.” FSE 2025. ↩
-
Yang, Borui, et al. “Hallucination Detection in Large Language Models with Metamorphic Relations.” FSE 2025. ↩
-
Wang, Yanlin, et al. “Beyond functional correctness: Investigating coding style inconsistencies in large language models.” FSE 2025. ↩
-
Wang, Chaozheng, et al. “Beyond PEFT: Layer-Wise Optimization for More Effective and Efficient Large Code Model Tuning.” FSE 2025. ↩