이재호
POSTECHKnowledge distillation is a simple yet powerful technique that transfers supervisory signals from a teacher model to a student model. It has played a key role in a wide range of machine learning applications, from edge vision to on-device large language models. This talk provides a brief overview of knowledge distillation and its use in modern AI systems, followed by a discussion of open theoretical and computational challenges. Through this, this talk aims to clarify the evolving role of knowledge distillation and its importance in shaping the next generation of AI models.
송현오
서울대학교In this talk, I will present recent research from the SNU Machine Learning Laboratory (MLLAB) on lossy acceleration methods for efficient deep neural network inference. We explore how accuracy–efficiency trade-offs can be optimized through techniques such as KV cache compression, mixed-precision quantization, and layer merging. These methods target both large language models and convolutional architectures, achieving substantial inference speedups with minimal performance degradation. Some of this work is presented at NeurIPS 2025, and others were featured at ICML 2024.
황성주
KAIST에이전틱 인공지능이란, 대규모 언어 모델을 기반으로 목표를 설정하고 계획을 수립하며, 실행과 기억, 에이전트 간 상호작용을 통해 과업을 수행하고 경험을 바탕으로 스스로 발전하는 자율 지능 시스템을 의미한다. 본 강의는 에이전틱 인공지능을 구성하는 핵심 요소인 계획, 실행, 기억, 상호작용, 자기 개선 메커니즘을 중심으로 그 구조와 동작 원리를 다룬다. 또한 에이전틱 인공지능의 한계와 도전 과제를 분석하고, 연구개발 에이전트 및 금융·건설 등 다양한 기업 환경에서의 실제 활용 사례를 살펴본다.
김 현
서울과학기술대학교This talk introduces why AI semiconductors matter and frames today’s accelerator challenges through a hardware-aware lens. It focuses on hardware-aware model compression, covering quantization, structured sparsity, low-rank approximation, pruning, and attention-specific optimizations designed to map efficiently onto accelerators. Using arithmetic intensity and roofline analysis, we explain performance and energy bottlenecks in on-device vision and long-context LLM workloads. On the hardware side, we discuss power-efficient NPUs and low-power memory systems, including near/in-memory computing, to minimize data movement. The talk concludes with a practical co-design playbook for deploying compressed models on accelerators to achieve low-latency, energy-efficient on-device AI.
윤세영
KAISTThis talk introduces adaptive computing methods that reduce inference cost in large language models by allocating computation according to difficulty. We cover token-level approaches such as early exiting and speculative decoding, query-level routing that selects among models of different capacities, and reasoning-level strategies that adjust the length or number of reasoning rollouts. Together, these perspectives highlight how LLMs can think efficiently—using more computation only when needed—while maintaining reliability and performance.
최정욱
한양대학교딥러닝 압축 기술은 처음에는 딥 뉴럴 네트워크의 효율성을 향상시키기 위한 하나의 옵션으로 제안되었지만, 생성형 AI 기술의 발전과 수십억 개의 매개변수를 포함하는 모델의 확장으로 그 중요성이 크게 증가했다. 메모리 사용량과 계산 복잡성을 줄이는 압축 기술은, 특히 제한된 메모리 용량을 가진 휴대용 기기에서 대규모 언어 모델을 실행하는 데 필수적이 되었다. 이 강의에서는 대규모 언어 모델 추론 효율성을 개선하기 위한 최신 압축 연구를 소개하며, 기술 발전의 미래 방향에 대해 논의할 것이다.
| Early Registration (~ 2월 10일) |
Late Registration | ||
|---|---|---|---|
| Academy | 교수 | 25만원 | 30만원 |
| 학생 | 15만원 | 20만원 | |
| Industry | 25만원 | 30만원 | |