KCI등재
CEO 편지 텍스트마이닝 - 독일기업 사례를 통한 전문 텍스트종류 연구 - = A Text Mining for CEO’s Letters - A Study of Specialized Text Types through the Case of German Companies -
저자
발행기관
학술지명
권호사항
발행연도
2021
작성언어
-주제어
등재정보
KCI등재
자료형태
학술저널
발행기관 URL
수록면
371-401(31쪽)
KCI 피인용횟수
0
DOI식별코드
제공처
본 논문의 목적은 텍스트마이닝 기법을 사용하면서, 주주들에게 보내는 CEO의 편지에 나오는 주제를 가지고, 텍스트종류를 특징짓는 것이다. 독어학의 연구 대상으로 독일기업의 자료를 예로 활용했다.
텍스트마이닝은 빅데이터를 처리하는 기법의 하나이다. 빅데이터 처리 기법을 텍스트 처리에 활용하는 길이 열리면서, 최근 들어 다양한 학문 분야에서 텍스트 마이닝 기법이 실험되고 있다. 텍스트언어학 연구가들도 이 기법에 관심을 가질 수 있다.
텍스트 내에서 직접 확인할 수 있는 유일한 실체는 단어이다. 그래서 텍스트의 생산과 수용을 실용적으로 다루려는 연구자들에게 단어는 주요 관심 대상이 되었다. 따라서 CEO의 편지 상의 주제들을 단어의 빈도와 단어 간의 연관 관계를 통해 특징짓는 것은 텍스트의 실용적 연구에도 기여할 것으로 기대된다.
독일기업 35개에게서 수집된 CEO의 편지를 원천 데이터로 삼고, 이 데이터를 코퍼스로 변환하고 정제한 후, 문서-용어행렬(DTM) 객체로 다시 변환하였다. 사용된 패키지는 R에서의 quanteda이다. 준비된 데이터 객체는 이후 단어 빈도에 따라 단어구름과 막대그래프로 시각화되었다. 상위 빈도 단어들은 주제에 따라 분류되었는데, 분류된 주제들은 합리적인 행동의 수행자 및 관련자, 시간, 경영성과, 비교, 영역, 합리적인 행동 등이다. CEO의 편지에 나타난 세계의 단면으로 간주된다. 다음, 단어 간의 연결성이 동시 출현 연결망(Co-occurence Network)을 통해 그려졌고, 합리적인 행동의 관련자인 kunden을 중심으로 하는 연결망이 결과 되었다. 이어서 주제 모델(Topicmodel)에 따라, 서로 독립성이 강한 3개의 주제를 추려내었고, 이 중 2개의 주제는 영역과 경영성과로 각각 요약되었다. 나머지 1개 주제는 단어 간 빈도 비율 차이가 크지 않아 별도 주제로 삼지 않았다.
이제까지는 미리 범주를 설정하지 않고, 단어 빈도만으로 단어를 분류한 것이다. 그러나 미리 범주를 정해 단어를 분류하는 방법도 가능해졌다. 사전 접근법으로 문서-용어행렬(DTM) 객체에 개인적으로 작성한 사전 목록을 첨가하여 자료를 조사하는 것이다. 단어 빈도에서 결과 된 주제와 그간 CEO의 편지에 대한 주제 연구에서 제시된 결과를 참고하여, 미리 5개의 주제를 정하였다. zeit, ergebnis, aktie, handeln, esg(환경, 사회, 지배구조) 등의 주제이다. 이런 주제들에 속하는 단어들이 모아졌고, 이들 단어 목록으로 사전이 만들어졌다. 비교를 위해 35개 CEO의 편지로 구성된 문서들을 8개 산업 분야로 나누었고, 이들 산업 분야별로 주제 분포를 조사하였다. 산업 분야별로 주제 분포의 차이는 있으나, 대체로 각각의 주제가 산업 분야와 무관하게 누락되지 않고 다루어졌다.
주제의 자동분류에서 나온 결과는 규범적인 주제 분류에 참고할 수 있게 되면서, 텍스트종류에 특화된 주제를 찾는 연구에도 개선이 이루어지리라 기대된다. 이로써 주제도 텍스트종류를 특징지을 수 있는 요소로 자리매김 될 수 있을 것으로 판단된다.
The purpose of this paper is to characterize the type of texts using the text mining technique, with the topics of the CEO’s letter to shareholders. Data from German companies were used as an example for the study of German linguistics.
Text mining is one of the techniques for processing big data. As the way to use big data processing techniques for text processing has been opened, recently, text mining techniques are being experimented with in various academic fields. Text linguistics researchers may also be interested in this technique.
The only entities that can be identified directly within the text are words. Thus, words have become a major concern for researchers who want to deal with the production and reception of texts in a practical way. Therefore, characterizing the topics in the CEO’s letter through the frequency and association of words is expected to contribute to the practical study of the text.
The CEO’s letters collected from 35 German companies were taken as the source data, and this data was converted into a corpus, refined, and converted back into a document-term matrix (DTM) object. The package used is quanteda in R. The prepared data objects were then visualized as wordcloud and bar graphs according to word frequency. The high frequency words were classified according to the topic, and the classified topics were the performers and related parties of rational actions, time, business performance, comparison, domain, and rational action. It is regarded as a slice of the world presented in the CEO’s letter. Next, the association between words was drawn through the co-occurence network, resulting in a network centered on kunden, the related parties of rational actions. Then, according to the topic model, three topics with strong independence were selected, and two topics were summarized as domain and business performance, respectively. The remaining one topic was not treated as a separate topic because the difference in frequency ratio between words was not large.
Until now, without setting a category in advance, words were classified only by word frequency. However, it is also possible to classify words by defining categories in advance. A dictionary approach is to examine data by adding a list of personal dictionaries to a document-term matrix (DTM) object. By referring to the topics resulting from word frequency and the results presented in the topic study on the CEO’s letter, five topics were determined in advance. Topics include zeit, ergebnis, aktie, handeln, esg (environment, society, governance). Words belonging to these topics were collected, and a dictionary was created from the list of words. For comparison, the documents composed of 35 CEO’s letters were divided into 8 industry fields, and the distribution of topics by these industry fields was investigated. Although there are differences in the distribution of topics by industry fields, in general, each topic was dealt with without omission regardless of the industry fields.
As the results from automatic topic classification can be referred to for normative topic classification, it is expected that improvements will be made in research to find topics specific to text types. Accordingly, it is judged that the topic can be positioned as an element that can characterize the type of text.
분석정보
연월일 | 이력구분 | 이력상세 | 등재구분 |
---|---|---|---|
2022 | 평가예정 | 재인증평가 신청대상 (재인증) | |
2019-01-01 | 평가 | 등재학술지 선정 (계속평가) | KCI등재 |
2018-12-01 | 평가 | 등재후보로 하락 (계속평가) | KCI후보 |
2015-01-01 | 평가 | 등재학술지 선정 (계속평가) | KCI등재 |
2013-01-01 | 평가 | 등재후보학술지 유지 (등재후보1차) | KCI후보 |
2012-01-01 | 평가 | 등재후보 1차 PASS (등재후보1차) | KCI후보 |
2010-01-01 | 평가 | 등재후보학술지 선정 (신규평가) | KCI후보 |
2008-07-01 | 학회명변경 | 한글명 : 인문학연구소 -> 인문학연구원영문명 : Institute of Humanities -> Institute of Humanities, Chosun university |
기준연도 | WOS-KCI 통합IF(2년) | KCIF(2년) | KCIF(3년) |
---|---|---|---|
2016 | 0.54 | 0.54 | 0.44 |
KCIF(4년) | KCIF(5년) | 중심성지수(3년) | 즉시성지수 |
0.45 | 0.42 | 0.978 | 0.41 |
서지정보 내보내기(Export)
닫기소장기관 정보
닫기권호소장정보
닫기오류접수
닫기오류 접수 확인
닫기음성서비스 신청
닫기음성서비스 신청 확인
닫기이용약관
닫기학술연구정보서비스 이용약관 (2017년 1월 1일 ~ 현재 적용)
학술연구정보서비스(이하 RISS)는 정보주체의 자유와 권리 보호를 위해 「개인정보 보호법」 및 관계 법령이 정한 바를 준수하여, 적법하게 개인정보를 처리하고 안전하게 관리하고 있습니다. 이에 「개인정보 보호법」 제30조에 따라 정보주체에게 개인정보 처리에 관한 절차 및 기준을 안내하고, 이와 관련한 고충을 신속하고 원활하게 처리할 수 있도록 하기 위하여 다음과 같이 개인정보 처리방침을 수립·공개합니다.
주요 개인정보 처리 표시(라벨링)
목 차
3년
또는 회원탈퇴시까지5년
(「전자상거래 등에서의 소비자보호에 관한3년
(「전자상거래 등에서의 소비자보호에 관한2년
이상(개인정보보호위원회 : 개인정보의 안전성 확보조치 기준)개인정보파일의 명칭 | 운영근거 / 처리목적 | 개인정보파일에 기록되는 개인정보의 항목 | 보유기간 | |
---|---|---|---|---|
학술연구정보서비스 이용자 가입정보 파일 | 한국교육학술정보원법 | 필수 | ID, 비밀번호, 성명, 생년월일, 신분(직업구분), 이메일, 소속분야, 웹진메일 수신동의 여부 | 3년 또는 탈퇴시 |
선택 | 소속기관명, 소속도서관명, 학과/부서명, 학번/직원번호, 휴대전화, 주소 |
구분 | 담당자 | 연락처 |
---|---|---|
KERIS 개인정보 보호책임자 | 정보보호본부 김태우 | - 이메일 : lsy@keris.or.kr - 전화번호 : 053-714-0439 - 팩스번호 : 053-714-0195 |
KERIS 개인정보 보호담당자 | 개인정보보호부 이상엽 | |
RISS 개인정보 보호책임자 | 대학학술본부 장금연 | - 이메일 : giltizen@keris.or.kr - 전화번호 : 053-714-0149 - 팩스번호 : 053-714-0194 |
RISS 개인정보 보호담당자 | 학술진흥부 길원진 |
자동로그아웃 안내
닫기인증오류 안내
닫기귀하께서는 휴면계정 전환 후 1년동안 회원정보 수집 및 이용에 대한
재동의를 하지 않으신 관계로 개인정보가 삭제되었습니다.
(참조 : RISS 이용약관 및 개인정보처리방침)
신규회원으로 가입하여 이용 부탁 드리며, 추가 문의는 고객센터로 연락 바랍니다.
- 기존 아이디 재사용 불가
휴면계정 안내
RISS는 [표준개인정보 보호지침]에 따라 2년을 주기로 개인정보 수집·이용에 관하여 (재)동의를 받고 있으며, (재)동의를 하지 않을 경우, 휴면계정으로 전환됩니다.
(※ 휴면계정은 원문이용 및 복사/대출 서비스를 이용할 수 없습니다.)
휴면계정으로 전환된 후 1년간 회원정보 수집·이용에 대한 재동의를 하지 않을 경우, RISS에서 자동탈퇴 및 개인정보가 삭제처리 됩니다.
고객센터 1599-3122
ARS번호+1번(회원가입 및 정보수정)