KCI등재
정적 언어모델부터 생성형AI까지, 텍스트를 다시 쓰는 기술에 대하여 — 조은경, 『한국학과 데이터과학』(서강대학교출판부, 2024) — = From Static Language Models to AI : On the Technique of Rewriting Texts —A Review of Korean Studies and Data Science (Eunkyung Cho, 2024, Sogang University Press) —
저자
발행기관
학술지명
권호사항
발행연도
2025
작성언어
Korean
주제어
등재정보
KCI등재
자료형태
학술저널
수록면
241-277(37쪽)
DOI식별코드
제공처
조은경의 『한국학과 데이터과학』은 “어문 및 인문학 연구자에게 활용도 높은 데이터 과학적 연구방법론을 안내함으로써” 한국 문학 및 문화 연구를 디지털인문학 방법론 을 수행하고자 하는 연구자에게 실질적인 도움을 줄 수 있는 책이다. 디지털인문학은 데이터 분석의 프로토콜을 포함하지만 단순한 기술 활용을 넘어 철학적, 문화적 전환 을 내포하는 광범위한 개념으로 사용되기도 한다. 이 과정에서 생산되는 관련 논문이 나 논의들은 담론성이 강하게 나타나거나 기술 사용 과정이 간소화되는 경우가 있는 것도 사실이다. 조은경은 ‘데이터과학’이라는 용어를 채택함으로써 한국어 기반 언어 자료를 수집하고 처리하여 분석하는 데 필요한 구체적인 기술과 절차에 보다 초점을 맞추고 있다.
디지털인문학에서 가장 활발하게 수행되는 연구 중 하나는 문자 기반 텍스트에 대한 분석이다. 그렇기 때문에 이 책 또한 “데이터의 양적 분석에 쓰이는 기초 통계량에서 부터 딥러닝에 이르기까지”를 차근차근 설명하고 있다. 비정형 데이터의 비중이 증가 함에 따라 평균, 표준편차, 분산 등 전통적인 기술통계량만으로는 데이터가 내포한 복잡한 의미 구조나 맥락적 관계를 충분히 설명하기 어려운 점이 있으므로 고차원 벡터 기반 지표들을 요청하게 되었으며 더 나아가 딥러닝 언어모델에 기반하여 “문맥에 따라 벡터 값이 변하는 동적 벡터”를 활용, 단어 수준을 넘어 문장, 문맥, 최종적으로 텍스트 수준에서 의미가 생성되는 과정을 다차원 벡터 공간에서 정교하게 표현하려 는 시도들이 이어지고 있다. 또한 GPT와 같은 생성형 언어 모델을 인문학 연구와 결 합하기 위해 RAG이나 온톨로지 기반 모델링을 활용하여 특정 분야의 전문 데이터를 추가학습함으로써 특정 도메인에 특화된 지식 생성의 정확도를 향상하려는 시도가 활발하다.
저자가 서술하는 데이터과학의 방법론적 변화 과정의 흐름을 따라가다 보면 이는 곧 디지털인문학의 자기 갱신 과정임을 알게 된다. 정적 언어 모델에서부터 동적 언어 모델로의 이행, 초대규모 언어 모델의 인문학적 활용 방식에 대한 모색은 인문학 텍 스트가 지닌 의미적 중층성을 중심에 두고 기술을 비판적으로 사유하는 자세에서 비 롯된 것이다. 기술의 발전 속도가 빠르게 변화하는 가운데 인문학 연구자들이 그 속 도를 앞서거나 발맞춰 따라가는 것은 쉬운 일이 아니다. 오히려 조은경은 인문학연구 자가 기술에 대한 풍부한 감각을 확보하고 분석의 맥락에 따라 기술을 사유하는 능력 이 더 중요하다는 점을 보여주고 있다. 텍스트와 기술 사이의 창조적인 매핑을 모색 하고 이를 통해 해석과 판단이 개입된 지식 생산의 실천으로 나아가는 것이 디지털인 문학, 인문데이터과학이 추구하는 방향성이라는 점을 보여준다.
이와 같은 흐름을 따라가며 서평을 쓰는 필자는 추가적으로 데이터셋 구성의 중요성 과 텍스트가 기술, 데이터셋 등을 통해 새롭게 표상됨으로써 열리는 글쓰기의 가능 성, 연구자의 정체성의 변화에 대해 언급하였다. 디지털인문학 연구는 기술과 연구 자, 텍스트와 연구자 등 다양한 차원에서 공동 저작성의 워크플로우를 포함하고 있 다. 또한 기술이 가진 무한한 문장 생성의 가능성을 통해 의미를 끝맺는 기존의 문학 과 예술의 의례에서 이탈하는 글쓰기 양식을 모색할 수 있다. 이 문장들은 때때로 무 의미의 경계를 맴돌 ...
Eunkyung Cho’s Korean Studies and Data Science is a book that offers practical guidance for researchers in Korean literature and culture who wish to engage in digital humanities methodologies by introducing “data-scientific research methods highly useful for language and humanities scholars.” While digital humanities encompass protocols of data analysis, the term is also broadly used to signify a philosophical and cultural shift beyond mere technological application. As a result, many scholarly discussions in this field tend to take on strong discursive tendencies, and at times the technical processes involved are overly simplified. By using the term “data science,” Cho explicitly emphasizes the concrete technologies and procedures necessary for collecting, processing, and analyzing Korean language-based textual data.
One of the most active areas of digital humanities research is the analysis of text-based, written materials. Accordingly, this book systematically explains everything “from basic statistical measures for quantitative data analysis to deep learning.” As the proportion of unstructured data increases, traditional descriptive statistics such as mean, standard deviation, and variance are no longer sufficient to explain the complex semantic structures or contextual relationships embedded in data. This has led to a growing use of high- dimensional vector-based metrics. Furthermore, deep learning-based language models now make it possible to express meaning across not only word-level but also sentence-level, context-level, and full-text levels using dynamic vectors whose values shift according to context.
Efforts are also underway to integrate generative language models such as GPT into humanities research. Techniques such as Retrieval-Augmented Generation (RAG) or ontology-based modeling are actively employed to fine-tune models using domain-specific datasets, thereby enhancing the precision of knowledge generation tailored to particular research areas.
As one follows Cho’s account of the methodological evolution in data science, it becomes apparent that this trajectory reflects the digital humanities’ own process of self-renewal. The transition from static to dynamic language models and the exploration of how large-scale language models can be applied to the humanities arise from a critical stance that centers the semantic multilayeredness of humanistic texts. In an era where technological advancements move at a rapid pace, it is difficult for humanities researchers to stay ahead of or even keep up with such developments. Rather than racing to match that pace, Cho argues, what is more crucial is the ability to develop a rich sensibility toward technology and to think critically about it in context. Her book underscores that what digital humanities—and data-driven humanities in particular—ultimately aim for is a practice of knowledge production shaped through creative mapping between text and technology, with interpretation and judgment deeply embedded in the process.
Following this trajectory, the reviewer further emphasizes the importance of dataset construction, the new possibilities of writing that open up when texts are re-represented through technology and data structures, and the shifting identity of the researcher. Digital humanities research involves workflows of co-authorship across multiple levels—between technology and researcher, and between text and researcher. Moreover, the infinite capacity of machine- generated text allows for the exploration of new writing styles that deviate from the conventions of closure that dominate traditional literature and art. These texts may sometimes consist of language fragments that hover at the boundaries of meaning, defying established norms. In witnessing the disorder of language pieces that resist interpretive cohesion and are arranged at random, we begin to sense the opening of a path toward imagining new ...
분석정보
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
| 주요 개정내역 | 변경 사유 |
|---|---|
| · 수탁업체 콘소시엄 기관명 및 위탁기간 명시 | · 제6조(개인정보 처리업무의 위탁) 구체화 |
한국교육학술정보원은 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
제1조(개인정보의 처리 목적)
제2조(개인정보의 처리 및 보유 기간)
제3조(처리하는 개인정보의 항목)
제4조(개인정보파일 등록 현황)
제5조(개인정보의 제3자 제공)
제6조(개인정보 처리업무의 위탁)
제7조(개인정보의 파기 절차 및 방법)
제8조(정보주체와 법정대리인의 권리·의무 및 그 행사 방법)
제9조(개인정보의 안전성 확보조치)
제10조(개인정보 자동 수집 장치의 설치·운영 및 거부)
제11조(개인정보 보호책임자)
제12조(개인정보의 열람청구를 접수·처리하는 부서)
제13조(정보주체의 권익침해에 대한 구제방법)
제14조(추가적 이용·제공 판단기준)
제15조(개인정보 처리방침의 변경)
제1조(개인정보의 처리 목적)
제2조(개인정보의 처리 및 보유 기간)
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)
제3조(처리하는 개인정보의 항목)
제4조(개인정보파일 등록 현황)
개인정보파일 검색(privacy.go.kr)| 개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 |
보유기간 | |
|---|---|---|---|---|
| 학술연구정보서비스 이용자 가입정보 | 한국교육학술정보원법 정보추제 동의 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
| 선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 | |||
제5조(개인정보의 제3자 제공)
제6조(개인정보 처리업무의 위탁)
제7조(개인정보의 파기 절차 및 방법)
제8조(정보주체와 법정대리인의 권리·의무 및 그 행사 방법)
제9조(개인정보의 안전성 확보조치)
제10조(개인정보 자동 수집 장치의 설치·운영 및 거부)
제11조(개인정보 보호책임자)
| 구분 | 담당자 | 연락처 |
|---|---|---|
| KERIS 개인정보 보호책임자 | 정보보호본부 안재호 |
- 이메일 : jinuk@keris.or.kr - 전화번호 : 053-714-0158 - 팩스번호 : 053-714-0195 |
| KERIS 개인정보 보호담당자 | 개인정보보호부 송진욱 | |
| RISS 개인정보 보호책임자 | 교육학술데이터본부 정광훈 |
- 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
| RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
제12조(개인정보의 열람청구를 접수·처리하는 부서)
제13조(정보주체의 권익침해에 대한 구제방법)
제14조(추가적인 이용ㆍ제공 판단기준)
제15조(개인정보 처리방침의 변경)
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)