단백질 기능 분석을 위한 연관 규칙 탐사 = Association Rule Discovery for Protein Function Analysis
저자
발행사항
광주 : 전남대학교 대학원, 2002
학위논문사항
학위논문(박사)-- 전남대학교 대학원: 전산통계학과 2002. 2
발행연도
2002
작성언어
한국어
주제어
KDC
005.74 판사항(4)
DDC
005.1 판사항(20)
발행국(도시)
광주
형태사항
85p. : 삽도 ; 30cm.
일반주기명
지도교수 : 이도헌
참고문헌 : p. 75-82
소장기관
바이오정보학(bioinformatics)은 생물학 분야 특히 분자 수준의 유전체 연구에서 발생하는 데이터를 저장, 관리, 분석하여 실험 프로젝트를 지원함은 물론, 기능 예측 및 조절에 대한 실험 설계를 가능하게 하는 제반 컴퓨터 기술을 의미한다. 현재, 인간 유전체 프로젝트(Human Genome Project)를 통하여 유전자의 서열정보가 밝혀짐에 따라, 유전체 연구의 주된 방향이 다양한 유전자에 대한 기능을 분석하고자 하는 측면으로 시작하고 있다. 발견된 유전자 정보는 주제별로 다수의 생물학 데이터베이스에 저장되어 웹을 통하여 제공되고 있으며, 여러 전산 기술을 이용하여 데이터베이스 통합 검색을 위한 시도가 이루어지고 있다. 또한 대량의 지놈 데이터들이 산출됨에 따라 기존의 저장 및 분석 방식으로는 대량의 유전자 서열 정보 및 새로운 형태의 생물학 자료(서열, 이미지)의 처리가 불가능 하기 때문에 새로운 분석 도구의 개발을 요구하고 있다.
서열 분석은 핵산 또는 단백질 서열 정보의 분석을 통하여 그 구조와 기능을 예측 하고자하는 연구 방법이다. 즉 서열의 특성 및 진화적 관계를 파악하기 위한 효과적인 알고리즘을 통하여 새로운 생물학적 지식들을 발견하고자 하는 것이다. 지금까지 연구된 서열 분석 알고리즘들은 주로 서열간의 상동성(homology) 검색을 위한 정렬 알고리즘들과, 주어진 서열들로부터 일정한 한 개 이상의 패턴을 찾아내거나 또는 데이터베이스에 이미 등록 되어있는 서열 패턴을 비교 검색해 주는 도구들이 개발되어 있다.
본 논문에서는 단백질의 기능을 결정하는 가장 중요한 요소 중 하나인 단백질의 기능을 예측하기 위한 데이터 마이닝 기법을 제안한다. 단백질의 일차 구조인 아미노산 서열에서 동시에 나타나는 부서열 간의 연관성이 해당 단백질의 이차 혹은 삼차 구조를 결정하는 중요한 단서임을 설명하고, 아미노산 부서열 간의 연관성을 표현하기 위한 모델로서 서열 연관 규칙 알고리즘을 제안한다. 기존의 트랜잭션 연관 규칙 탐사 알고리즘과는 달리 서열 데이터라는 특성을 감안하고 이를 규칙 탐사과정의 각 단계에서 고려한다. 서열 연관 규칙의 유용성을 평가하기 위한 지지도와 신뢰도를 새롭게 정의하고, 생물학 연구에 필요한 정확한 규칙 생성을 유도하고자 탐사된 규칙에 대하여 마지막 단계에서 유의미한 규칙들로 집약한다. 제안하는 알고리즘은 4단계로 구성된다. 주어진 의미 있는 집합의 단백질 서열을 가지고 1단계에서 여러 서열에 빈발하게 발생하는 임의의 빈발 부서열 집합을 찾는다. 2단계에서는 임의 길이의 자주 발생하는 부서열 조합을 발견한다. 3단계에서는 획득된 조합으로부터 높은 신뢰도를 갖는 연관 규칙을 구성하고, 마지막 단계에서는 규칙간에 포함되는 부규칙(sub-rule)을 제거하여 규칙을 요약한다.
생물학적으로 발견된 공통적인 패턴을 모티프(motif)라 하며, 제안하는 서열 연관규칙 알고리즘은 발견된 한 개 이상의 모티프들의 연관성을 규칙의 형태로 나타낸다. 생물 현장에서 쓰이고 있는 서열의 유사성이나 한 개 이상의 모티프를 비교 검색해주는 기존의 도구와는 달리 제안하는 시스템은 주어진 서열에서 여러 패턴을 발견하고, 이들 패턴들끼리의 연관성을 사용자가 요구하는 지지도와 신뢰도 계수를 이용하여 타당성 있게 검증해준다.
탐사된 단백질 부서열 간의 연관 규칙은 단백질의 기능을 밝혀내는데 더 많은 실험을 위한 의미 있는 단서를 제공할 것이다. 아울러, TRANSFAC 데이터베이스로부터 입수한 단백질 서열 데이터를 이용하여 제안한 기법의 다양한 실험 결과를 제시한다.
Bioinformatics means that various computer technology which not only support experimental project by storing, managing and analysing the data which originate from biological field, especially gene research at molecular level, but also enable experimental plan of functional prediction and regulation. At present, The focus of genome researches also manufactures aspect to analyze the function of various gene, as the sequence information of genome has been manifested through Human Genome Project. Discovered genetic information is offered by many biological database with subject through web, and at present a trial for database integration search by using multiple computer technology is accomplished. And, as the vast amount of genomic data was produced, established preserving and analysing method can not merge multiple genomic information and new shaped biological data (sequence, image), so new analysing tool is required.
Sequence analysis is research method, which expect the structure and function by analysing nucleic acid or protein sequence information. It is said that, new biological knowledges must be discovered through effective algorithm for understanding the sequence characteristics and evolutionary relationship. The sequence analysis algorithms which were researched until now are usually alignment algorithms for search of homology between sequences and tools which discover regular one more pattern from the given sequences, or compare and analyse sequence pattern already registered in the database.
In this thesis, we propose the data mining technique for expectation of the protein function which is one of the most important elements of deciding the protein function. We explain that the relationship between subsequence which occurred simultaneously in the amino acid sequence, the primary structure of protein, is important clue for deciding the secondary or tertiary structure of corresponding protein, and propose the sequence association rule, as the model for presentation of relationship between amino acid subsequences. Contrary to established transaction association rule discovering algorithm, we made allowance for the characteristics of sequence data and considered them at each step of rule discovering process. We gave a new definition of support degree and confidence degree for estimating the usefulness of sequence relationship rule and gathered significant rules for making the exact rule prediction which is needed for biologic research among the discovered rules in final stage. Proposed algorithms composed of four stages. Given a meaningful collection of protein sequences. In first stage we search random frequent subsequence collections which occur frequently at many sequences. In second stage, we discover random length frequent subsequence collection. In third stage, we compose relationship rules with high significance form acquired collections and in final stage, summary the rules by deleting the sub- rules which is included in the rules.
Biologically discovered common pattern is motif, and proposed sequence association rule algorithm represent the relationship of discovered one more motif as the shape of rules. Contrary to existing tools which compare and search the similarity of sequences used at biological field, or one more motif, proposed system discover multiple patterns from the given sequence, and appropriately verify the relationship between these patterns by using the support degree and significance degree coefficient.
The association rules between discovered protein subsequence will offer a meaningful clue for the more experiments of identify protein functions. And, by using the protein sequence data which is collected from TRANSFAC protein database, we present multiple experimental results of propose.
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)