과제구분 | 한국학 기초연구/공동연구과제 | ||
---|---|---|---|
과제코드 | (AKSR2018-C16) | ||
연구과제명 |
|
||
연구책임자 | 김병선 | ||
공동연구자 |
|
||
연구기간 | 2018-04-04 ~ 2018-11-30 | 연구형태 | 공동연구 |
연구목적 및 배경 | 한국 현대소설 작품의 코퍼스(corpus)를 구축하여, 코퍼스 활용 문체 연구에 필요한 자료를 제공하는 것을 목적으로 한다. 또한 한국학중앙연구원에서 기구축되어 검색 서비스를 제공하고 있는 한국신소설어휘사전 사이트를 확장 개편하여, 이번에 구축하는 한국현대소설코퍼스를 탑재하여, 학계의 문학 어휘 정보에 대한 요구에 부응한다. |
||
연구방법 및 내용 | 대상 작품으로는 염상섭의 <만세전><삼대><무화과>, 채만식의 <탁류><태평천하>를 선정하였다. 선정된 작품의 텍스트를 확정하고, 이 텍스트의 어절 단위 KWIC 색인을 만들어, 각각의 어절에 대하여 기본형 분석, 동음이의어 분석, 다의어분석 및 품사분석을 실시하였다. 또한 향후 한국문학어휘사전 사이트의 이상적 구성안을 탐구하였다. |
||
연구결과물 세부 목차 | 1. KWIC 정보: 앞문맥, 키워드, 뒤문맥 2. 출전 정보: 작가명, 작품명, 연도 3. 분석 정보: 기본형, 표준형, 품사, 동음이의어, 조사와 어미 |
||
연구결과 | 연구대상의 분석 결과 <만세전>(27,500), <삼대>(103,560), <무화과>(156,403), <탁류>(101,850), <태평천하>(40,205) 등 모두 43만 개의 어휘(token)의 2만5천 종의 어종을 분석하였다. 분석된 어휘를 데이터베이스 테이블에 수록하였으며, 이를 바탕으로 한국현대소설어휘사전의 검토용 웹사이트(corpus.aks.ac.kr/KoNoCo)를 구성하였다. |
||
참고문헌 | 염상섭 관련 자료. ① 염상섭 전집 (민음사, 1987) (전 12권) ② 삼대: 『삼대(한국문학전집3)』 (문학과지성사, 2004초판) ③ 무화과: 『무화과(한국문학대계6)』(동아출판사, 1995) *이미지 확보 ④ 만세전: 『만세전(한국문학대표작선집22)』 (문학사상사, 2004초판)
참고자료: 『염상섭 소설어 사전』 (곽원석 편저, 고려대출판부, 2002) 『염상섭의 삼대 어휘사전』 (김상규, 카멜팩토리, 전자책 2017) 『염상섭 문장전집』(전3권) (한기형, 이혜령, 소명출판, 2013) 채만식 관련 자료 ① 채만식 전집 (창작과비평사, 1989) (전 10권) ② 탁류: 『탁류(한국문학전집 42)』 (문학과지성사, 2014초판, 2016초판5쇄) 참고자료: 『탁류(원본비평정본)』, (정홍섭 주석ㆍ해설, 태학사, 2017) ③ 태평천하: 『태평천하(한국문학전집 11)』 (문학과지성사, 2005초판, 2018초판36쇄) 참고자료: 『채만식 어휘사전』 (임무출 엮음, 토담, 1997) 『문학 속의 전라 방언』 (이태영, 글누림, 2010) 기타 참고자료 『코퍼스 분석을 위한 한국어 전자사전 구축방법론』 (남지순, 역락, 2018) 『번안 소설어 사전』 (박진영 편, 현실문화, 2008) |
전체 연구결과 요약(초록) | |
---|---|
가. 어휘 분석용 테이블의 구성 - KWIC 색인을 바탕으로 한 어휘 분석의 결과는 MS Access 테이블로 수록된다. 그 구조 및 구성 내용은 기수행된 현대소설 코퍼스와 동일하다. ① 번호: 전체 작품의 일련번호 (삼대, 무화과, 만세전, 탁류, 태평천하 순) 일련번호이긴 하지만 숫자를 10단위로 처리하였고, 어휘의 분할, 결합 등에 의해 숫자가 1단위로 처리된 곳도 있다. 따라서 최종적으로는 부여 단위가 일정한 일련번호는 아니나, 원문의 순서는 그대로 반영하였다. ② 활용형: 본문 키워드에서 문장부호나 ( ) 안의 내용을 제외한 표기. ③ 기본형: 활용형 어절(token)에서 추출한 기본형(type) ④ 표준형: 기본형(원형) + 첨자 + [다의어표지] + 품사 ([ ] 안은 선택적임) 이 표준형 분석의 과정은 다음과 같다. * 기분석 목록의 작성: 2014~2017 년에 수행한 결과물에서, 각 활용형 어절과 그것을 분석한 표준형을 쌍으로 하는 목록을 작성하여 MS Access 테이블에 수록한다. * 2018년의 분석 대상 활용형 어절을 기분석 목록의 어절에서 찾아 그에 대응하는 표준형을 인용한다. * 활용형 어절 필드를 기준으로 가나다순으로 정렬하거나, 어절의 끝음절 등을 필터 처리하여 유사 형태 어휘를 모아놓고, 이를 대상으로 기분석 목록에서 제안한 표준형을 검증한다. * 위와 같은 방식으로 분석되지 않는 어절은 일일이 확인하여 수작업으로 표준형을 재구해 낸다. * 완성된 목록을 대상으로 앞뒤 어절과의 2Gram을 구성하고 이를 바탕으로 재검증한다. * 금년도 분석에서는 기존의 분석 결과(이광수의 장편 네 편 및, 염상섭의 만세전)를 활용하여 자동 분석을 시도했으나, 분석 처리율이 50%에 미치지 못하였고, 분석에도 오류가 많아서 많은 부분을 수작업에 기댈 수밖에 없었다. 따라서 공동연구원(박장례: 채만식 <탁류> 염상섭 <삼대> (약 20만 어절), 이영준: 채만식 <태평천하> 염상섭 <무화과>) (약 20만 어절))과 함께 모든 어휘를 하나씩하나씩 검토하였다. (기분석 자료의 활용률이 떨어진다는 것은, 이광수의 어휘와 염상섭, 채만식의 어휘가 사뭇 다르다는 근거로 이해될 수 있다.) ⑤ 의미형: _ + 기본형(원형) + [(원어)] + 첨자 + [다의어표지] + 품사 ⑥ 앞문맥: 키워드 앞의 9 어절 ⑦ 앞어절: 키워드 바로 앞의 1 어절 (어휘 환경 검토에 활용) ⑧ 앞음절: 키워드 바로 앞 어절의 마지막 음절 (어휘 환경 검토에 활용) ⑨ 키워드: 본문의 해당 어절 ⑩ 뒤문맥: 키워드 다음의 9 어절 ⑪ 작품 ⑫ 작가 ⑬ 품사: 다음과 같은 품사 기호로 표시한다.: 명사(ng), 대명사(np), 고유명사(nm), 수사(nr), 의존명사(nb), 동사(vv), 형용사(va), 보조동사(vx), 보조형용사(vz), 부사(ma), 관형사(mm), 감탄사(ic), 접미사(xs), 접두사(xp), 어근(xr), 조사(jk), 제외(ex) 참고1: 어휘 구성 형식을 간략하게 부기하였다. 이것은 조사나 어미 등을 분리하여 그 형태적 구성을 나타낸 것이다. 이때 접미사와 선어말어미는 따로 구분함. 기본형과 조사(어미)의 구성 형식을 ‘+’(체언의 경우), ‘-’(용언의 경우)로 구분하여 표시함. 어휘가 활용하면서 축약된 경우에는 ( ) 안에 축약 이전의 형태를 밝혔다. (예: 없어졌다 → 없어지-(었)다) 참고2: 의미 분석과 품사 분석에서 유의한 사항. 동음이의어에 대한 검토의 편의를 위하여 “의미형” 필드에 한자나 간략 풀이 등을 제시하였다. 연구 수행 과정에서 분석의 적합성 여부를 직관적으로 파악할 수 있다. 다의어는 같은 첨자로 된 어휘가 두 개 이상의 품사로 분석될 때를 말한다. 다의어는 첨자 뒤에 ㉠㉡㉢ 등으로 구분하였다. 검토할 때는 특히 본동사와 보조용언 등으로 구분되는 다음 어휘들을 문맥에 유의하여 자세히 살폈다. (가다, 가지다, 나다, 나가다, 대다, 두다, 들다, 버리다, 보다, 않다, 오다, 있다, 주다, 하다 등의 용언) (관형사-수사, 부사-감탄사, 부사-명사 등) (표현성이 있는 용언, 동사-형용사 등) 다의어는 위 사전에 근거하였지만, 책임자가 임의로 구분한 경우도 있다. (예를 들면 해(태양, 하루해, 시간 단위), 끓다(물이 끓는 것과 벌레가 많은 것), 아침(때와 식사), 저녁(때와 식사)) 고유명사(nm)는 의미어에 다음과 같은 추가 표기를 하였다: 인물명([人]), 지명([地]), 나라([國]), 건물, 기관([設]), 작품이나 책([作]) 참고3: 다음은 기본형의 확정에 검토한 사항이다. - 정서적 표현이 포함된 비표준 어휘의 처리: ‘뚜욱’, ‘따악’과 같은 의성어 의태어(부사어나 형용사어)에서 정서적 표현 관련으로 장음(길게 표시)을 나타내기 위해서 표준형인 ‘뚝’, ‘딱’으로 고쳤다. 표준국어사전에 수록되지 않은 어휘의 경우에는 장음 표시를 그대로 두었다. - 일반명사와 고유명사의 처리 문제: 「무화과」에서 작중인물 중에 한 사람을 처음에는 ‘삼만원’이라는 칭호로 나오다가 뒤에서 그 사람의 이름이 등장하였는데 인물 칭호의 통일 문제를 어떻게 할 건지에 대한 문제 제기. 문맥에 맞추어 일정 시점 이후에는 ‘삼만원’이라는 고유명사로 취급해야 할 것이다. - 띄어쓰기 문제: ① 합성어의 띄어쓰기 문제: 의존명사 ‘-거리’로 구성된 합성어의 띄어쓰기 문제 제기. 예: 구실 거리 등 ② 접사의 띄어쓰기 문제: 접사 ‘상(上)’의 띄어쓰기 문제. 예: 인정상(人情上)00ng, 학문상(學問上)90ng 이러한 띄어쓰기 문제는 국립국어대사전의 기준을 참조하되, 빈도나 의미적 맥락을 고려하여 합성 여부를 판단하기로 한다. 기대효과 및 활용방안 - 이번 연구를 통해서 해방전 주요 중단편 소설의 코퍼스가 확보되고, 자료 처리의 과정을 거치면서 매우 높은 수준의 원본비평이 수행된다. 최종적으로 43만 어절 규모의 소설어휘 분석코퍼스가 탄생하였다. - 이 코퍼스는 KWIC 형식의 색인집으로 편집되어 있으며, 이를 MS SQL 서버에 탑재하여 한국소설어휘용례사전 사이트를 통해 온라인 퍼블리싱(출판)이 된다. - 이 연구의 결과물은 데이터베이스 형식을 취하게 되는데, 이러한 형식은 종이책보다는 온라인 데이터베이스로 출판하는 것이 의미가 있다. 어휘에 대한 검색과 용례의 제시뿐만 아니라, 사용자의 요구를 반영한 각종 통계정보의 제공이 가능하기 때문이다. 이번의 한국현대소설 코퍼스는 장차 한국현대시 용례사전 및 한국신소설 어휘사전과 통합하여 장차 ‘한국문학 어휘사전’으로 발전시키게 된다. - 이 결과물은 한국문학 및 인문사회과학 연구자들에게 검색 자료로 제한 없이 제공된다. 별도의 서면 요청이 있을 경우에는 제한적으로 파일 정보를 제공한다. 이 결과물을 활용한 연구물에는 반드시 출처 정보를 표시하도록 한다. - 한국문학 연구 특히 문체 연구에 주요 자료로 활용하게 되며, 이를 통한 2차적 저작물이 생산될 수 있다. 이 자료를 활용한 각종의 계량적 연구를 통해 생산되는 저술이 가능해진다. - 한국문학 연구에 있어서 계량적, 과학적 연구 태도를 진작하고, 이 분야의 연구 활성화에 기여할 것이다. |
|
세부과제별 요약 | |
세부과제1 |
가. 본문 텍스트의 교정과 교열 및 편집의 원칙 (1) 전산 파일의 확보 ① 연구를 위해서는 대상 작품들의 텍스트를 컴퓨터에 입력해야 한다. 이에 앞서서 시중에서 구할 수 있는 전산 파일을 확보하기로 하였다. ② 연구진에서는 위 다섯 작품의 입력본을 확보하였고, 이 파일은 동아출판사 발행의 한국문학대계의 출판 원고의 일부분으로 알려져 있다. (2) 전산 파일의 교정 ① 기존에 확보한 전산 텍스트는 충실한 원본비평을 거치지 않은 상태이다. 또한 텍스트 별로 편집 방식이 다소간 다르다. 이 다섯 작품을 하나의 코퍼스로 묶기 위해서는 적절한 편집을 필요로 한다. ② 확보한 텍스트에는 적지 않은 오류가 있는 것을 확인하였다. 연구의 성격상 본격적인 원본비평은 수행하지 않았지만, 표기의 오류 및 텍스트의 탈락과 중복 등의 문제는 반드시 해결해야 한다. 텍스트 교정ㆍ교열 및 편집의 원칙은 2017년 이광수 장편소설의 원칙을 준용한다. (1) 원본의 오탈자는 바로잡는다. (2) 원본의 표기는 현행 표기체계로 수정한다. (1) 옛한글 표기는 모두 현행 표기체계로 수정한다. (2) 외래어나 외국어는 외래어 표기법에 맞추어 수정한다. (3) 부사나 형용사 등 표현에 관계되는 어휘의 경우(의성의태어 포함)에는, 현행 어휘로 수정하지 않고, 원본의 표기만 현행 표기체계로 수정한다. (4) 대화문에 포함되어 있는 지역어는 현행 어휘로 수정하지 않고, 원본의 표기만 현행 표기체계로 수정한다. (5) 현재는 사용되지 않으나 당대에는 사용된 것으로 보이는 어휘는 원본 표기대로 둔다. (6) 반복 부호는 글자로 대치한다. (3) 띄어쓰기는 현행 정서법에 따라 낱말을 모두 띄어 쓰고, 토는 윗말에 붙인다. (4) 문장부호는 현행 정서법을 따르되 가로쓰기의 기준을 적용한다. 나. 입력 텍스트와 원문의 대조를 통한 검토 - 오탈자의 경우는 입력 텍스트를 정독하여 교정할 수도 있고, 입력 도구로 사용한 <ᄒᆞᆫ글>의 맞춤법 검사기 등을 통하여 그 오류를 발견할 수도 있지만, 텍스트의 누락이나 중복은 그러한 도구로 검사할 수 없다. - 따라서 이 연구과제에서는 입력 텍스트(전산본)와 원본 텍스트(인쇄본)의 대조를 통해 이 문제를 해결하기로 하고 2017년 이광수 소설 텍스트의 교정에 적용되었던 텍스트 비교의 방법을 적용하였다. - 먼저 전산 파일을 - 이렇게 텍스트 대조 교정을 시행한 결과 크게 보아 중복 입력이나 누락의 부분은 없었다. 일부 오탈자는 이 대조를 통해서 바로잡았다. |
세부과제2 |
(1) 입력 텍스트의 확보와 파일로 저장 - 위와 같은 과정을 거쳐서 확정이 된 텍스트를 작품 당 1개의 파일로 저장한다. (2) 용례색인의 생성 - 어절을 키워드로 하는 KWIC 색인을 만든다. <ᄒᆞᆫ글>로 입력한 문서의 어절을 일일이 구분한 후 이를 MS Excel로 보내 KWIC 색인을 생성하여 최종적으로 이를 MS Access 테이블에 수록한다. 기본적인 용례색인은 ‘키워드-용례-출처’ 형식으로 구성된다. (3) 어휘의 언어학적 분석 - 키워드로 추출된 각 어절(활용형 혹은 곡용형이다.)에 대하여 기본형을 분석한다. 기본형 분석은 한국학중앙연구원의 한국 현대시 코퍼스 및 한국 신소설 코퍼스 구축 사업의 원칙을 따른다. - 분석된 기본형 어휘의 동음이의어 분석을 실시한다. ????표준국어대사전????을 기준으로 각 동음이의어에 대하여 첨자를 부가한다. 일부 어휘에 대해서는 다의어 분석을 실시한다. ????표준국어대사전????을 기준으로 각 다의어에 대하여 부호를 부가한다. 이때 ????표준국어대사전????은 현행 인터넷으로 서비스되고 있는 판을 기준으로 하였다. - 이와 같은 동음이의어 분석과 다의어 분석은 본 연구자가 확보하고 있는 ‘활용형-기본형 기분석 목록’ 테이블을 활용하여 자동으로 처리하는 방안을 적용한다. 그 결과로 나타난 후보 어휘에 대해서는 해당 어휘의 문맥을 고려하여 동음이의어를 확정하고, 후보 어휘가 없는 것에 대해서는 일일이 수작업으로 분석한다. - 기본형 어휘에 대하여 품사를 분석한다. 이와 같은 분석의 결과를 키워드로 표시한다. - 추가적 정보를 부가한다. 각 어휘에 대해서 ‘일련번호(작품에서의 순서 및 전체 순서)’를 부가하고, 각 어휘에 대해서 다시 ‘작품명’과 ‘작가명’을 부가하고, 문장의 특이사항을 ‘비고’에 적어 넣는다. - 작품을 구획하는 표지(1, 2, 3 등)에 대해서는 불용어(stop word) 태그를 붙인다. |
세부과제3 |
다. 염상섭ㆍ채만식 중장편 소설 어휘 검색 사이트의 구성 - 2018년도 연구과제는 염상섭과 채만식의 중장편 소설 5편을 대상으로 한 어휘사전을 제작하는 목적을 가지고 있다. 연구과제 추진과 결과의 확인을 위하여 위의 한국신소설 어휘사전과 동일한 형태의 웹사이트를 구성하여 결과물을 탑재하였다. 검색 방법도 신소설 어휘사전 사이트와 동일하다. 이 사이트의 주소는 다음과 같다. (임시 주소) http://corpus.aks.ac.kr/KoNoCo 라. 소설어휘 정보 서비스의 하드웨어와 소프트웨어 (1) 서버의 규격과 설치 CPU: i5, RAM: 8GB, HDD: 1TB OS: Windows 10 Web Server: IIS, DB Server: MS SQL 한국학중앙연구원 전산실에 설치 운영중. (2) 2018년도 소프트웨어 구입 내역 ① SQLSvrStd 2017 SNGL OLP NL Acdmc 대용량 데이터베이스의 검색을 지원하는 MS의 서버 프로그램 ② SQLCAL 2017 SNGL OLP NL Acdmc UsrCAL MS SQL 서버에 대한 사용자 라이선스 ③ EmEditor Pro(영구라이선스) - 한글지원 엠에디터는 강력한 기능의 매크로, 유니코드, 그리고 대용량 파일을 지원한다. ④ ALTOVA XMLSpy Professional - Installed (ESD), 한글지원 Altova XMLSpy®은 높은 품질의 표준 준수 XML 기반 응용프로그램을 이전보다 더 빨리 개발할 수 있어 생산성을 높인다. XML 인스턴스 문서 생성과 편집, 스키마 인식 XQuery 개발과 디버깅, 시각적 XML Schema 개발, XPath 1.0/2.0 개발, DTD 편집, 데이터베이스 상호작용, 그래픽 WSDL 개발, Web 서비스 개발, SOAP 개발과 디버깅, Java/C#/C++ 코드 생성, XSLT 1.0 개발과 디버깅, VS.NET와 Eclipse 통합, 스키마 인식 XSLT 2.0 개발과 디버깅을 지원한다. ⑤ ABBYY FineReader 14 Enterprise Edition, 한글지원 PDF 및 스캔 문서에서 OCR을 통하여 문자 인식을 지원하는 프로그램이다. 전세계의 주요 언어를 지원하며, 한글과 한자 및 영문자를 동시에 인식한다. 문서의 비교 기능도 제공하며, 월 1만 페이지의 변환을 지원하고, ABBYY에서는 제일 빠른 인식 속도를 제공한다. 이 프로그램은 인쇄본 텍스트를 컴퓨터 파일로 변환하는 데 요긴하게 사용된다. ⑥) AMCHARTS (Single website license) -JavaScript Stock Charts + JavaScript Charts 계량적 분석 결과를 시각화하여 웹상에서 보여줄 수 있는 콤포넌트 프로그램으로서 비교적 간단한 데이터를 이용하여 기본형 차트를 제작하는 기능을 가지고 있다. 좀더 세분된 설정과 유동적인 제작 과정을 제공하는 앰차트는 인포그램과는 다른 스타일의 차트를 제공한다. |
내용 |
---|