KCI등재
실시간 스트림 데이터를 위한 새로운 익명화 알고리즘 제안 = Proposal of a New Anonymization
저자
발행기관
학술지명
아시아태평양융합연구교류논문지(Asia-pacific Journal of Convergent Research Interchange)
권호사항
발행연도
2023
작성언어
Korean
주제어
등재정보
KCI등재
자료형태
학술저널
발행기관 URL
수록면
21-31(11쪽)
DOI식별코드
제공처
실시간 스트림 데이터라 함은 실시간 범죄신고정보, 온라인 판매거래정보, 병원 내 환자 모니터링 장치 등 각종 PoC(Point of Care, 현장 진료형 의료장비)들로부터 실시간으로 수집되는 개인생체신호 등의 데이터를 말한다. 우리는 이러한 실시간 수집 스트림 데이터에서의 프라이버시 보호를 위한 새로운 익명처리 알고리즘을 제안하고자 한다. 제안 알고리즘은 기존 Ugur와 Osman이 제안한 UBDSA 알고리즘보다 크게 4가지 측면에서 성능을 개선하였다. 첫째, 일반화 트리를 형성한 다음 정보손실을 미리 측정할 수 있도록 사전 수행과정(Precompute)을 두었다. 둘째, 각 트랜잭션 데이터(레코드)가 입력될 때마다 슬라이싱을 통하여 준식별자 컬럼들과 아닌 컬럼들을 분리하여 각각 저장하였으며, 아울러 게시전 조합(combine)을 위하여 분리시 분리된 각 슬라이스에 일련번호를 붙이도록 하였다. 즉, 각 트랜잭션 별로 클러스터링시 준식별자 컬럼들만 저장하여 일반화함으로써 저장공간을 줄이고 계산 성능을 개선하였으며, 특히 이것은 컬럼수가 많거나 혹은 대용량 데이터에 대해 보다 효율적이다. 셋째, 클러스터 할당(AssignCluster) 단계에서 성능을 아래와 같이 개선하였다. 먼저 지연 임계값(입력 후 게시될때 까지의 최대 허용 가능 트랜잭션 레코드 수)이하 초기 클러스터 할당 과정에서부터 기존 알고리즘과 달리 각각 별도의 클러스터에 배정하지 않고 정보손실을 고려하여 클러스터링을 수행하였다. 끝으로 일반화 및 게시(Publish 단계)에서 성능을 개선하였다. 기존과 달리 클러스터 내 튜플의수가 2k 이상인 클러스터에 대해 분할 과정을 미수행하며 기존 주장인 데이터 품질 개선과는 달리 굳이 분할을 하지 않더라도 그 자체로도 데이터 품질이 좋을 수도 있으며, 안전성이 보다 높고 과정을 수행하지 않음으로 인해 성능도 향상된다. 또한 기존 UBDSA 알고리즘과 달리 클러스터 내 튜플의수가 k보다 적은 경우 이동 가능한 타 클러스터를 탐색 후 가능 클러스터를 찾아 이를 배정하는 과정에서 랜덤 배정이 아닌 최소거리 기반 배정을 수행하였다. 이는 기존 주장인 정보유출로 인한 반대 공격을 피하는 것과 달리 최소 k값이 보장될 경우 유용성 차원에서 최소거리인 클러스터로 배정이 타당하다. 그리고 앞서 클러스터 내 튜플의 수가 k보다 적은 경우 이동 가능한 타 클러스터를 탐색 후 가능 클러스터를 못찾았거나 혹은 익명화되지않은 클러스터 내 튜플수가 중앙값 클러스터 크기보다 작은 경우 기존 삭제 혹은 최상위 일반화 대신 제안 알고리즘은 삭제를 수행함으로서 수행 시간을 줄일 수 있다.
더보기Real-time stream data refers to data which collected in real time such as personal vital signs information collected from various PoCs (Point of Care, point-of-care medical equipment) in hospitals, real-time crime report information, and online sales transaction. We propose a new anonymization algorithm for privacy protection in these real-time collected stream data. The proposed algorithm significantly improved performance in four aspects compared to the UBDSA algorithm proposed by Ugur and Osman. First, after forming a generalization tree, precompute was performed to measure information loss in advance. Second, whenever each transaction data (record) is entered, quasi-identifier columns and non-identifier columns are separated and stored through slicing, and serial numbers are attached to each slice separated at the time of separation for combine before publishing, That is, when clustering for each transaction, only quasi-identifier columns are stored and generalized to reduce storage space and improve calculation performance. In particular, it is more efficient for large numbers of columns or large-capacity data. Third, the performance in the cluster assignment (AssignCluster) step was improved as follows. First, from the initial cluster assignment process below the delay threshold (the maximum allowable number of transaction records from input to publishing), clustering was performed in consideration of information loss, rather than assigning to separate clusters, unlike existing algorithms. Finally, performance was improved in generalization and publishing (Publish stage). First, after forming a generalization tree, precompute was performed to measure information loss in advance. Second, whenever each transaction data (record) is entered, quasi-identifier columns and non-identifier columns are separated and stored through slicing, and serial numbers are attached to each slice separated at the time of separation for combine before publishing, That is, when clustering for each transaction, only quasi-identifier columns are stored and generalized to reduce storage space and improve calculation performance. In particular, it is more efficient for large numbers of columns or large-capacity data. Third, the performance in the cluster assignment (AssignCluster) step was improved as follows. First, from the initial cluster assignment process below the delay threshold (the maximum allowable number of transaction records from input to publishing), clustering was performed in consideration of information loss, rather than assigning to separate clusters, unlike existing UBDSA algorithm. Finally, performance was improved in generalization and publishing (Publish stage). The partitioning process is not performed for clusters with more than 2k tuples in the cluster, and unlike the existing data quality improvement claims, data quality can be good without partitioning and safety is higher. It improves performance by not running the process. If the number of tuples in a cluster is less than k, after searching for other movable clusters, in the process of searching and assigning, possible clusters are found and assigned based on the minimum distance rather than random assignment. Contrary to the previous argument, if the minimum value of k is guaranteed to avoid counterattack due to information leakage, it is reasonable to assign it to the cluster with the minimum distance in terms of usefulness. And if the number of tuples in a cluster is less than k previously, if no possible cluster is found after searching for other movable clusters, or if the number of tuples in a non-anonymized cluster is smaller than the medium-sized cluster, then we can reduce execution time because we choose only deletion rather than existing generalization of the top-level or deletion.
더보기분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
| 주요 개정내역 | 변경 사유 |
|---|---|
| · 수탁업체 콘소시엄 기관명 및 위탁기간 명시 | · 제6조(개인정보 처리업무의 위탁) 구체화 |
한국교육학술정보원은 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
제1조(개인정보의 처리 목적)
제2조(개인정보의 처리 및 보유 기간)
제3조(처리하는 개인정보의 항목)
제4조(개인정보파일 등록 현황)
제5조(개인정보의 제3자 제공)
제6조(개인정보 처리업무의 위탁)
제7조(개인정보의 파기 절차 및 방법)
제8조(정보주체와 법정대리인의 권리·의무 및 그 행사 방법)
제9조(개인정보의 안전성 확보조치)
제10조(개인정보 자동 수집 장치의 설치·운영 및 거부)
제11조(개인정보 보호책임자)
제12조(개인정보의 열람청구를 접수·처리하는 부서)
제13조(정보주체의 권익침해에 대한 구제방법)
제14조(추가적 이용·제공 판단기준)
제15조(개인정보 처리방침의 변경)
제1조(개인정보의 처리 목적)
제2조(개인정보의 처리 및 보유 기간)
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)
제3조(처리하는 개인정보의 항목)
제4조(개인정보파일 등록 현황)
개인정보파일 검색(privacy.go.kr)| 개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 |
보유기간 | |
|---|---|---|---|---|
| 학술연구정보서비스 이용자 가입정보 | 한국교육학술정보원법 정보추제 동의 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
| 선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 | |||
제5조(개인정보의 제3자 제공)
제6조(개인정보 처리업무의 위탁)
제7조(개인정보의 파기 절차 및 방법)
제8조(정보주체와 법정대리인의 권리·의무 및 그 행사 방법)
제9조(개인정보의 안전성 확보조치)
제10조(개인정보 자동 수집 장치의 설치·운영 및 거부)
제11조(개인정보 보호책임자)
| 구분 | 담당자 | 연락처 |
|---|---|---|
| KERIS 개인정보 보호책임자 | 정보보호본부 안재호 |
- 이메일 : jinuk@keris.or.kr - 전화번호 : 053-714-0158 - 팩스번호 : 053-714-0195 |
| KERIS 개인정보 보호담당자 | 개인정보보호부 송진욱 | |
| RISS 개인정보 보호책임자 | 교육학술데이터본부 정광훈 |
- 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
| RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
제12조(개인정보의 열람청구를 접수·처리하는 부서)
제13조(정보주체의 권익침해에 대한 구제방법)
제14조(추가적인 이용ㆍ제공 판단기준)
제15조(개인정보 처리방침의 변경)
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)