의미적-공간적 문맥정보 기반 영상 이해에 관한 연구
저자
발행사항
인천 : 인하대학교 대학원, 2014
학위논문사항
학위논문(박사)-- 인하대학교 대학원 일반대학원 : 전자공학과 2014. 2
발행연도
2014
작성언어
영어
주제어
DDC
621.367 판사항(23)
발행국(도시)
인천
기타서명
A Study on Semantic-Spatial Context based Scene Understanding
형태사항
xix, 128 p. ; 26cm
일반주기명
인하대학교 논문은 저작권에 의해 보호받습니다.
지도교수:이종호
참고문헌 : p.113-128
소장기관
In this dissertation, we propose an unified framework for scene understanding and its building blocks used in a scene classification, a semantic segmentation, and a 3D semantic mapping.
In Chapter 2, we briefly describe the mechanism of the human brain to understand the scene from visual information. And we discuss the need to analyze and mimic the visual perception mechanism of the human brain for the scene understanding.
%The scene understanding is very challenging task due to the problems such as diversity and ambiguity exist in images. Nevertheless, humans perform the scene understanding task easily without great efforts. Why humans perform the scene understanding better than computers is intelligence and visual perception system of a human brain getting from birth. Thus, in order to achieve improved scene understanding performance, we need to analyze and mimic the visual perception mechanism of the human brain.
In Chapter 3 and 4, we address the issue of scene classification based on the semantic attributes in particular. In existing studies, each semantic attribute is treated independently, even though the semantic attributes have a higher-order relationships in the scene. Therefore, we introduce a graph-based approach to model the relationships. In addition, we deal with a novel method to overcome the problem of measurement noise to be appeared during the measurement of the expression of each semantic attribute.
In Chapter 3, we propose a Markov random field based method to consider the relationships between semantic attributes of a scene image. Through subnetworks search method based on the Markov random filed, we explore category-specific subnetworks of semantic attributes optimized for each scene category classification task. Member semantic attributes constituting the explored subnetworks are likely to be strongly associated with each other. And we propose a method to aggregate the expression values of the member semantic attributes belongs to the explored subnetworks using a transformation method via z-score based estimation. Experimental results show that the discrimination power of the feature vector generated by the proposed method is better than existing methods through experiments. Because of this, the proposed method show a competitive classification performance compared with the conventional methods. %The proposed method can be utilized not only to obtain the context information from the video for autonomous navigation robots, but also to improve the performance of existing image classification or annotation methods.
In Chapter 4, we propose a hypergraph based method to consider the higher-order relationships between semantic attributes of a scene image and apply it to a scene image classification. The relationships of the semantic attributes show higher-order interaction originally. However, typical graph based models can consider only a single pairwise level relationship. In order to generate the hypergraph optimized for specific scene category classification, we propose a novel search method based on a probabilistic subspace method and also propose a method to aggregate the expression values of the member semantic attributes belongs to the searched subsets based on a transformation method via likelihood ratio based estimation. To verify the superiority of the proposed method, we perform various experiments. Experimental results show that the discrimination power of the feature vector generated by the proposed method is better than existing methods through experiments. Also, the proposed method shows a competitive classification performance compared with the conventional methods. In addition, to evaluate the reproducibility of the proposed method, we perform cross-dataset experiments. For this, we use two public datasets consisting of the same categories provided by two different research groups.
In Chapter 5, we propose a novel method for the semantic segmentation to consider the higher-order semantic and spatial relation between adjacent regions. The utilization of these contextual information makes it possible to achieve improve performance. Despite the existing semantic segmentation method show a pretty good performance, sometimes they produce poor results can not be satisfied. One of the main causes is that the existing methods do not consider the higher-order interaction between semantic attributes. The contextual information is very helpful to improve performance of a semantic segmentation. For this, some approaches have proposed to utilize the contextual information based on pairwise relationships between objects on scene image. Generally the semantic attributes in the scene have higher-order interaction relationships, therefore using only single pairwise relation is not enough to deal with the higher-order interaction.
To overcome this limitation, we utilize the higher-order relationship and spatial relationship of the adjacent regions for the semantic segmentation. In addition, we also propose a retrieval set refining method to utilize global contextual information using scene classification result. This is related to the scene classification technique explained in the Chapter 3 and the Chapter 4. More accurate search of retrieval set can be possible using scene category information of given image and the expression values of semantic attributes. This reduces the possibility of incorrect information is included to the retrieval set compare with using only image feature to search similar image. And also, in order to improve the smooth term calculated using only object co-occurrence, we modify the smooth term using an improved pointwise mutual information by incorporating significant co-occurrence of semantic attributes.
Furthermore, we present an unified framework to combine the result of semantic segmentation with the reconstructed 3D point clouds to analyze semantic attributes on three-dimensional space. The experimental results show the capability that the proposed framework can be used to analyze the real-life scene of a three-dimensional space.
장면을 이해하는 것(scene understanding)은 장면 내에 존재하는 복잡성과 다양성(시점 변화, 밝기 변화, 색상 변화 등) 등으로 인해 매우 어려운 작업이라고 할 수 있다. 그럼에도 인간은 일반적으로 그와 같은 일을 큰 어려움 없이 매우 자연스럽게 수행해 낸다. 이러한 일들을 인간이 컴퓨터보다 더 잘 수행해 내는 이유는 지능 때문이라고 할 수 있다. 따라서 컴퓨터가 인간의 시각 지능과 같은 수준의 작업을 수행하기 위해서는 그러한 시각 지능을 분석하고 모사 할 필요가 있다. 이를 위해 지난 수십 년간 컴퓨터 비전 분야에서는 다양한 연구들이 수행되어 왔다. 그러나 여전히 장면에 존재하는 각 물체들의 의미 정보를 정확하게 유추하는 일은 어려운 문제이고, 그로부터 장면에 대한 이해를 도출하는 것은 매우 도전적인 작업이라고 할 수 있다.
본 논문에서는 장면을 이해하기 위한 다양한 기법을 제안한다. 첫 번째로, 장면 이미지 분류 성능을 개선하기 위한 기법들을 제안하였다. 이를 위해 장면 이미지를 구성하는 시멘틱 속성들의 상호작용 관계를 고려 가능한 Markov random field (MRF) 및 하이퍼그래프 기반의 모델링 기법을 제시한다. 또한 이들로부터 탐색된 서브네트워크들에 기반을 둔 새로운 특징 벡터를 생성하여 장면 분류에 사용하는 기법을 제안한다. 제안한 기법을 이용하여 시멘틱 속성들의 발현 양상을 결합하는 과정에서 각 시멘틱 속성들의 발현 양상에 포함 된 잡음으로 인해 발생하는 문제가 완화 시킬 수 있고, 분류에 사용되는 특징 벡터들의 분별력을 향상 시킬 수 있다. 이러한 결과는 장면 분류 성능의 향상으로 이어진다. 또한 제안한 기법의 재현성을 검증하기 위해 기존의 연구들과 다르게 교차 데이터셋(cross-dataset) 실험을 계획하고 수행한다.
두 번째로, semantic segmentation 성능을 향상을 위한 기법들을 제안한다. Semantic segmentation은 장면 이미지를 구성하는 각 오브젝트들을 분리하고, 각각의 클래스 레이블을 확인하는 작업을 의미하는 것으로, 컴퓨터 비전 분야에서 매우 중요한 문제 중 하나이다. 이를 위해 최근까지 픽셀 기반 예측, 세그멘테이션 기반 예측, 경계 상자 기반 예측과 같은 다양한 기법들이 제안 되어왔다. 이들 기법들은 일반적으로 미리 정의 된 몇 가지 클래스에 대해 적용되고, 이들 각 클래스를 분류 해 낼 수 있는 개별 분류기들을 필요로 한다. 따라서 필연적으로 학습 과정이 필요하게 되는데, 이 과정은 일반적으로 많은 연산 시간을 필요로 한다. 또한 새로운 학습 데이터나, 클래스가 추가 되었을 경우 학습을 다시 수행해야 한다는 문제가 존재한다. 그러나 현재 인터넷과 영상 획득이 가능한 모바일 기기 등의 비약적인 발달로 인해 처리해야 할 이미지들의 양 또한 비약적으로 증가하고 있는 추세에 있다. 따라서 이들 대량의 이미지 데이터를 빠르고 효과적으로 분석하기 위한 기법에 대한 필요성 또한 증가하고 있다. 이는 이미지를 분석하기 위해 사용되는 모델의 학습 시간과 테스트 시간을 감소시키면서 분석 성능은 그대로 유지하는 새로운 기법이 필요함을 의미한다.
최근 이러한 문제를 해결하기 위해 비모수(nonparametric) 기반 기법을 이용한 연구들이 제안 되었고, 많은 컴퓨터 비전 연구자들의 관심을 끌었을 뿐만 아니라 성능 또한 매우 우수함이 알려졌다. 이들 비모수 기반 기법은 기존의 모수(parametric) 기반 semantic segmentation 기법들과 비교하여 학습 모델을 위한 파라미터 학습을 필요로 하지 않는 다는 특징이 있다. 따라서 오브젝트들의 클래스 수에 관계없이 대용량의 데이터셋에도 유연하게 대처 할 수 있는 확장성(scalability)이 있다. 또한 semantic segmentation의 성능을 개선하기 위하여 시멘틱 속성과 속성간의 상호관계를 고려하여 결과를 개선하기 위한 기법들이 제안 되어 왔다. 그러나 이미지 상에서 시멘틱 속성들간의 문맥 정보는 고차원의 상호작용 갖는 것이 일반적으로, 단일쌍 기반 상호작용 정보만으로는 충분하지 못하다. 이를 위해 본 논문에서는 semantic segmentation을 위한 시멘틱 속성들 간의 고차원의 상호작용 관계를 고려 가능한 새로운 비모수 기반의 기법을 제안한다. 뿐만 아니라 이미지 내의 지역 문맥 정보뿐만 아니라, 전역 문맥 정보를 활용하기 위해 retrieval set을 image classification을 이용하여 개선하는 방법을 제안한다. 이미지의 클래스 정보와 시멘틱 속성들의 발현 정도를 이용 할 경우 보다 정확한 retrieval set 탐색이 가능해진다. 이미지의 클래스 정보는 기술자(descriptor)들 만으로 유사 이미지를 검색 했을 때 발생하는 오정보의 포함 가능성을 줄여주는 효과가 있다. 뿐만 아니라, 단순히 오브젝트들간의 동시발현(co-occurrence) 정보만을 이용하는 smooth term을 개선하기 위해, pointwise mutual information 기반의 오브젝트들의 상관관계 정보를 이용한 새로운 smooth term을 제안한다.
마지막으로, 3차원 공간상에서의 장면 이해를 위한 기법을 제안한다. 이를 위해 Structure from Motion (SFM)을 이용하여 연속하는 2D 이미지들로부터 3차원 공간상에서의 Point clouds를 획득하고, 이를 semantic segmentation을 통해 얻어진 정보와 결합하는 방법을 제시한다. 이를 통해 3차원 공간상에서의 시멘틱 맵을 작성 할 수 있고, 각 Point cloud는 단순한 위치 정보만이 아닌 시멘틱 정보 또한 갖게 된다. 또한 본 논문에서 제안한 기법들을 통해 3차원 공간상에서의 장면 이해 문제를 해결 할 수 있음을 실험을 통해 검증한다.
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)