Deep learning-based perception, thinking, and generation for natural human-computer interaction = 딥러닝 기반의 인지, 생각, 생성 과정을 통한 자연스러운 인간-컴퓨터 상호작용
저자
발행사항
서울 : 고려대학교 대학원, 2024
학위논문사항
학위논문(박사)-- 고려대학교 대학원 : 영상정보처리협동과정 영상정보처리전공 2024. 2
발행연도
2024
작성언어
영어
주제어
발행국(도시)
서울
형태사항
207 p ; 26 cm
일반주기명
지도교수: 고한석
UCI식별코드
I804:11009-000000278414
DOI식별코드
소장기관
인간-컴퓨터 상호작용 시스템은 컴퓨터와 사용자 간의 정보 교환을 위한 인터페이스를 뜻한다. 인간과 인간 사이의 상호작용 시스템에 경우 사람은 먼저 인지 시스템을 이용하여 주변 상황과 대화 상대자를 인식한다. 그리고, 인식된 정보를 신경계에 전달하고, 생각 시스템에 전달하여 반응을 생성하게 된다. 마지막으로, 생성된 반응을 운동계에 전달하여 상대방에게 전달한다. 본 연구에서는 이러한 사람의 상호작용 과정을 모방한 인간-컴퓨터 상호작용 시스템을 구성한다.
제안하는 상호작용하는 컴퓨터 시스템은 인지, 생각, 생성과정으로 이루어져 있다. 인지 시스템에는 객체 탐지와 인식, 사람 탐지와 식별 등의 영상 기반 인지 시스템이 포함된다. 이러한 영상 기반 인지 시스템은 카메라를 주로 사용하며 가끔 거리 센서와 같은 추가적인 센서들을 활용한다. 또한, 음성 향상, 소리 분류, 음성 인식 등의 음성 기반 인지 시스템 또한 인지 시스템에 포함된다. 음성 기반 인지 시스템은 주로 마이크를 사용하여 음성 신호를 측정한다. 본 연구에서는 주변 상황 및 사용자를 인식하기 위한 음성 기반의 인지 시스템을 다룬다.
사람의 생각 시스템은 추상적이고, 동작 원리를 설명하기 어려운 블랙 박스이기 때문에 문제을 정의하기가 어렵다. 따라서, 본 연구에서는 문제를 단순화시키기 위해 자연어를 통해 동작하는 생각 시스템에 대해 연구한다. 최근, LLM의 발전에 따라 대화 시스템 역시 급격한 발전을 이루고 있다. LLM 기반의 대화 시스템은 어느 정도 자기 자신의 특징과 사용자 정보의 일관성을 유지할 수 있다. 생성된 답변의 일관성과 자연스러움은 파라미터가 많은 모델일수록 좋아진다. 하지만, 파라미터가 많아질수록 더 많은 컴퓨팅 자원과 시간이 필요하므로, 실시간 인간-컴퓨터 상호작용 시스템을 구축하기 위해서는 모델 크기와 컴퓨팅 시간 사이의 밸런스를 조절할 필요가 있다. 더욱이, LLM은 실시간 상호작용을 하기에는 너무 긴 응답을 생성하는 경향이 있고, 때때로 부적절한 답변을 하는 경우도 존재한다. 이러한 문제를 해결하기 위해서는 적절한 모델 선정과 프롬프트 엔지니어링이 중요하다.
대화형 시스템에서 생성 시스템의 목적은 대화 상대에게 생각과 의도를 전달하는 것이다. 생성 시스템에는 언어적 표현과 비언어적 표현이라는 두 가지 주요 연구 분야가 있다. 말과 글이 포함된 언어적 표현은 언어적 특징을 사용하여 사용자의 정보를 대화 상대에게 전달한다. 외모, 얼굴 감정, 준언어, 몸짓 등의 비언어적 표현은 언어적, 음성적 표현 없이 정보를 전달한다. 에이전트의 생각을 정확하게 전달하기 위해서는 언어적 표현과 비언어적 표현이 모두 중요하다.
인공지능 기반 인간-컴퓨터 상호작용 시스템의 전반적인 성능을 향상시키기 위해서 시스템 내에 존재하는 인공지능 모듈들은 정확도와 경량화라는 두가지 관점을 고려해야 한다. 많은 인공지능 모듈들은 전통적인 방법들에 비해 정확도, 인간 유사성, 자연스러움 및 다양성 측면에서 좋은 성능을 보여주고 있지만, 더 나은 인공지능 모델들은 대체로 더 많은 컴퓨터 자원을 요구하는 경향성을 보인다. 따라서, 시간 복잡도와 컴퓨팅 자원이 중요한 요소로 작용하는 인간-컴퓨터 상호작용 시스템에서는 인공지능 모듈들의 활용이 제한되어 왔다.
이러한 문제들을 해결하기 위해, 본 논문에서는 성능과 컴퓨팅 자원 간의 균형을 중재하고 인공지능 모델의 성능 향상 및 컴퓨팅 자원을 적게 소모할 수 있도록 하는 방법론에 대해 연구를 진행하였다. 성능 관점에서 본 논문에서는 새로운 데이터셋, 데이터 증강 방법, 신경망 모델 구조를 제안하였다. 컴퓨팅 자원 관점에서 본 논문은 경량화된 모델과 retrieval augmented generation을 위한 프롬프트 엔지니어링 방법에 대해 제안하였다. 마지막으로, 본 논문에서는 인지, 생각, 및 생성을 위한 인공지능 모듈의 정확도 및 경량화 성능 평가를 위해 end-to-end로 동작하는 인공지능 기반 인간-컴퓨터 상호작용 시스템을 제안하였다.
Human-computer interaction(HCI) system is the interface for information exchanges between computers and users. For the human-human interaction system, people first recognize the circumstance and interlocutors using their cognitive system. Then, the information is sent to the neural system and processed by the thinking system to generate a reaction. Finally, the reaction is performed by the motor system. This research designed the human-computer interaction system by mimicking these human beings.
The proposed interactive computer system consists of recognition, thinking, and generation processes.
The recognition system contains object detection and classification, human detection and identification, and other visual perception process. Such visual perception processes mainly use cameras and sometimes use other sensors that capture distance. Moreover, audio perception processes, such as speech enhancement, sound event detection, and automatic speech recognition (ASR), are performed in the recognition system. The audio perception processes use microphones to record audio signals.
The thinking system is hard to define because the human thinking system is abstracted, unexplained, and black-box. To simply and make explainable the problem, the thinking system for human-computer interaction is operated by natural language in this research. Recently, the dialogue system has been improved rapidly by the improvement of the large language model (LLM). The LLM-based dialogue system can preserve the consistency of the characteristics and user information to some extent. The consistency and naturalness of the generated response depend on the LLM model size, larger is better. However, since the larger model uses a huge amount of computing resources and is time-consuming, balancing model size and processing time is important for real-time HCI systems. Moreover, the LLMs tend to generate too long responses to use in real-time interaction, and sometimes they generate harmful content. To mitigate these problems, detecting, filtering, and prompt engineering is crucial.
The objective of the generation system for the interactive system is to deliver thinks and intents to interlocutors. There are two main research fields of the generation system: verbal expression and non-verbal expression. The verbal expressions, which contain speech and writing, use linguistic features to deliver information from users to interlocutors. The non-verbal expressions, including appearance, facial emotion, para-linguistics, and gestures, deliver information without linguistic and speech expressions. Both verbal expressions and non-verbal expressions are important to provide thinks of agents accurately.
To achieve better performance on AI-driven HCI systems, AI modules should consider two aspects: accurate and lightweight. Although many AI modules outperform traditional modules on accuracy, human likeness, naturalness, and variety, the better AI modules tend to require more computational resources. Therefore, the usage of AI modules in the HCI fields has been restricted because computational resources and time consumption are important factors of the HCI system.
To address the problem, this dissertation mediates the trade-off between performance and computing resources and studies to reduce computational resources with performance improvement. For the performance aspect, this dissertation introduces datasets, designs a data augmentation strategy, and presents novel neural network structures. For the computation resources aspect, this dissertation proposes lightweight neural network structures and prompt engineering methods for retrieval augmented generation. Finally, this dissertation introduces an AI-driven end-to-end HCI system to evaluate the AI modules for perception, thinking, and generation in performance and computation resources aspects.
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)