연구방법 및 내용 |
○ 연구내용
이 연구는 1998년에 이루어진 1차 연구에 이어서 차후 2, 3년에 걸쳐 수행하려고 하는 것으로서 기 수행된 연구 내용과 금번의 연구 및 차후 연구의 내용을 간략히 소개하면 다음과 같다.
▶ 1차년도(1998년) 연구 개요 : 통계적 문체론의 이론적 검토 및 연구 대상 확정
(1) 계량적 언어학 및 통계적 문체론에 대한 일반 이론을 정립한다.
(2) 우리나라에서의 해당 분야에서의 연구 현황을 조사한다.
(3) 연구 대상이 되는 현대시의 범주를 확정한다.
(4) 연구 대상 현대시의 분석대상을 재구성하여 시 본문자료를 확정한다.
▶ 2차년도(2003년) 연구 개요 : 시 본문 자료에 대한 통계적 분석 실시
(1) 시 본문자료에 대하여 통계적 분석을 실시한다.
- 시어(기본형, 원형)에 대한 빈도, 분포도 등 조사 연구
- 시연과 시행 구성에 대한 빈도, 분포도 등 조사 연구
(2) 시 본문자료에 대하여 언어학적 구성에 대한 분석을 실시한다.
- 문장의 종류, 문장의 길이에 대해 분석한다.
(3) 계량적 문체론에 사용될 전산처리 알고리즘을 연구한다.
- MS Excel로 자료를 입력하고, Excel의 내장 함수를 이용하여 분석한다.
- VB Script 처리를 시행하여 진보된 통계 현상을 추출한다.
▶ 3차년도(2004년) 연구 개요 : 시 본문 자료 및 시 제목에 대한 진보된 문체 연구
(1) 분석 자료를 통시적 관점에서 검토한다.
(2) 음보율적인 관점에서 현대시의 음수 구성을 분석한다.
▶ 4차년도(2005년) 연구 개요 : 관련 정보에 대한 문체 연구
(1) 시인별 통계적 현상에 대한 비교분석을 실시한다.
(2) 시제목의 유형과 제목붙이기 현상을 분석한다.
이 연구의 2차년도인 금년도에는 전반적으로 시 본문 자료에 대한 통계적 분석을 실시한다. 이 분석 작업은 이 사업 전체로 보아 가장 핵심적인 부분이라고 할 수 있다.
(1) 먼저 분석 대상이 되는 작품을 확정할 것이다. 이 작업은 1차년도(1998년)에 일차 수행되었지만, 새로운 전산 환경에 맞추어서 기 입력 자료의 전자문서를 변환하고 새롭게 정비한다.
(2) 시 본문자료에 대하여 시 양식의 제 요소를 중심으로 통계적 분석을 실시한다. 시 양식은 음절-어절-시행-시연-시절-시작품 등의 계열체로 구성되어 있으며, 이러한 여러 시양식에 대하여 구체적인 양적 현상을 조사 연구한다. 이러한 조사 연구 과정을 통해서 기 구축 자료의 시 양식에 대한 검증도 실시한다.
(3) 시어에 대한 통계적 분석을 실시한다. 시어는 시의 양식적 요소의 하나인 어절과 밀접한 관계에 있지만 어절로부터 시어를 추출하는 것은 소위 형태소 분석이라는 과정을 거쳐야 한다. 일차년도 연구 과제를 통해서 기본적이고 기계적인 형태소 분석을 실시한 바 있는데, 상호참조(cross reference)의 방법을 활용하고, 수작업과 전산처리 방법을 병행하여 보다 완벽한 형태소 분석을 실시한다. 이로써 시어(기본형 혹은 원형)에 대한 빈도, 분포도 등에 대한 조사 연구가 가능해질 수 있다.
(4) 시 본문자료에 대하여 언어학적 구성에 대한 분석을 실시한다. 시 작품은 문학 작품인 동시에 하나의 언어적 발화 단위이기도 하다. 따라서 언어학의 관점에서 말하는 문장의 제 양식 요소를 계량적으로 조사 분석한다. 즉 작품을 이루는 문장의 수, 문장의 길이(음절수 및 어절수)를 조사 분석한다.
(5) 계량적 문체론에 사용될 전산처리 방법 및 통계 패키지 활용 방법을 연구한다. 이 연구에서는 기존 통계 패키지 중 유니코드 처리가 간편하고 구매비용이 저렴한 MS Excel을 활용하기로 한다. 분석 자료를 Excel의 내장 함수를 이용하여 분석하고, 내장 함수로 분석이 어려운 경우에는 VB Script 처리를 시행하여 진보된 통계 현상을 추출한다.
▨ 연구대상
(1) 작품의 시기 : 1908년-1950년(20세기 전반의 한국시를 대상으로 함)
(2) 작품의 범주 : 시집으로 발표된 현대시 중 자유시를 대상으로 함.
- 당초 선정된 작품은 10,042편임.
- 이 중 작품 자체가 불명확한 작품을 제외함.
- 시조, 한시, 민요, 동요, 서사시, 극시, 산문시 등을 제외함.
* 계량적 연구에서 위와 같은 작품은 통계적 예외성을 가지는 것들임.
* 위와 같은 장르의 작품에서 나타나는 계량적 현상은 별도 연구 예정임.
(3) 대상 작품의 현황
- 시인수 : 358명
- 작품수 : 10,042편
현대시 작품(자유시, 민요, 창가, 산문시, 극시 등) : 8962편
시조 작품 : 1,032편
한시 : 3편(입력 과정에서 제외한 것도 있음)
자료 미확인 작품 : 45편(전체 미확인 41편, 일부 미확인 4편)
- 중복작품 조정을 통한 확정 작품수 : 8644편(10,042-1398)
(4) 작품의 확정 : 동일작품에 대해서는 대상 판본을 확정함.
- 작가에 의해서 출판된 시집의 경우 최종본 수록본을 우선함.
- 동일 작품이 여러 시집에 수록되어 있을 경우, 판본 확정에 참고함.
○ 연구방법
이 연구는 기본적으로 문헌 연구의 형태이지만, 실제적으로는 전자문서에 대한 조사 연구의 형태로 이루어진다. 특히 전자문서에 대한 조사를 위해서, 문서에 대한 전산 분석의 방법과, 분석된 결과의 통계처리 방법이 활용된다.
문서는 그것이 작성된 국가에 따라, 문화권에 따라 서로 다른 면이 있으며, 그것을 전자문서화할 때에도 그러한 개별성이 반영될 수밖에 없다. 따라서 문서에 대한 분석에 있어서는 이러한 한국어 문서의 특성을 고려하여 처리할 예정이다.
아울러서 텍스트 문서 형태로서 대상 작품에 대한 전처리(pre-processing) 이후에, 분석 자료를 기존의 통계 패키지로 옮겨서 통계 패키지가 제공하는 각종 통계처리 함수를 이용하여 분석하고, 내장 함수가 지원하지 않는 부분은 스크립트 프로그래밍을 통해서 처리할 예정이다.
이 연구에서 대상으로 하는 자료가 비교적 충실히 수집된 것이긴 하지만 아무래도 모든 현대시 작품을 수집한 것은 아니므로, 이 자료를 표본으로 처리할 예정이다. 이를 통해서 통계학이 요구하는 각종 수치를 추출하여 현대시 분석의 새로운 틀, 현대시 연구의 새로운 패러다임을 제공하려 한다.
|
연구결과 |
연구 대상 작품을 재분석하여, 원전 교정이 필요한 부분을 추출하고, 이를 확정하였으며, 전체 시어를 어절 단위로 MS Access에 수입하여 데이터 처리의 준비를 하였고, MS Access 상에서 기본형 추출, 품사 확정 작업을 실시하였다. 이어 시어의 빈도표(시어의 가나다순 / 빈도순)를 작성하였다. 전체 시어의 수는 현재 619,376개로 확인되었다.
다음 통계 처리에 있어서는 자료의 형태 및 특성에 유의하여, 전체 통계 및 반복 지수를 추출하였으며, 누적 구간별 어휘 분포도를 산출하였고, 명사/동사/형용사/부사 등 실질어의 분포를 찾아보았다. 아울러 고빈도 어휘의 특성에 대하여 고찰하였다.
|
참고문헌 |
권종성, 조선어 정보처리, 한국문화사, 1996.
김대행, 운율, 문학과지성사, 1984.
김병선, 국어와 컴퓨터, 도서출판한실, 1992.
김병선, 소월의 시어와 그 쓰임새, 한국문화사, 1993.
김병선, '현대문학 연구의 정보화', 한국어와 정보화, 2002.
김홍규, 송강시의 언어, 고려대출판부, 1993.
문영호, 계산기언어학 개론, 사회과학추판사, 1990
문영호, 응용언어학, 사회과학출판사, 1993.
박범조, Excel을 이용한 현대통계학 이론과 활용, 시그마프레스, 2000.
배희숙, 'Structures Lexicales, Syntaziques et Phonetiques Dans Pieces de J. Tardieu', Strasbourg대학 문학박사학위논문, 1997.
배희숙, '문학작품의 양적 분석과 컴퓨터의 활용', 99 추계 학술발표회 연구자료집, 프랑스문화예술학회, 1999.
배희숙, 통계언어학입문, 태학사, 2001.
서상규 한영균, 국어정보학 입문, 태학사, 1999.
소강춘, '정보처리 프로그램에 대하여-SynKDP를 중심으로', 한국어와 정보화, 2002.
조창환, 한국현대시의 운율론적 연구, 일지사, 1986.
조창환, 한국시의 넓이와 깊이, 국학자료원, 1998.
Barnbrook, Geoff, Language and Computers, Edinburgh Univ. Press, 1996.
Smith, Peter D., An Introduction to Text Processing, Th MIT Press, 1990.
Butler, Christopher, Statistics in Linguistics, Basil Blackwell, 1985.
|