과제구분 | 한국학중점연구 / 연구·교육 연계과제 | ||
---|---|---|---|
과제코드 | |||
연구과제명 |
|
||
연구책임자 | 김바로 | ||
공동연구자 | |||
연구기간 | 20230302 ~ 20230831 | 연구형태 | 단독연구 |
연구목적 및 배경 | ○ 디지털 분석 방법은 기본적으로 표상체(sign)에 대한 초고속 처리에 불과함. 일례로 디지털 언어분석 방법은 방대한 텍스트에 출현하는 각 표상체를 표상체 식별 체계(형태소 사전, 띄어쓰기, 문장 부호 등)를 통하여 식별하고, 그 출현 빈도를 정확하게 헤아려 대상 텍스트의 전체적인 모습을 탐색하는 방식임. 그런데 표상체에 대한 통계 결과는 단지 숫자일 뿐 그 자체로 의미를 가지고 있지 않기에, 연구자의 해석을 필요로 함. 즉 디지털 방법 자체는 표상체만을 대상으로 하고 있으며, 대응하는 해석체를 탐색하고 표상체와 해석체를 연결하는 것은 인문학자의 역할로 남아 있음. ○ 따라서, 인문학자가 디지털 리터러시를 갖추게 되면, 인문학자들은 개인 연구의 한계로 접근하기 어려웠던 대규모 텍스트를 대상으로 하는 연구를 인문학 연구에 도입할 수 있게 될 뿐만이 아니라, 정보공학만으로는 불완전했던 디지털 분석 방법의 한계를 극복할 수 있음. 이에 인문학자의 디지털 분석 능력을 향상 시킬 수 있는 교육 콘텐츠를 편찬함. |
||
연구방법 및 내용 | ○ 본 연구과제에서는 인문학을 위한 디지털 리터러시(Digital Literacy) 함양을 위하여, <인문지식 처리와 프로그래밍> 강의에서 배우는 디지털 분석 방법론을 각각 교재와 교육 동영상으로 제작하여, 위키독스(WikiDocs)와 유튜브(YouTube)를 통해서 공유함. |
||
연구결과물 세부 목차 | 인문 데이터 분석 입문 데이터 전처리 - 정규표현식 데이터 분석 환경 구축 인문 텍스트 데이터의 형태소 분석 인문 데이터의 딥러닝 분석 - word2vec의 활용 인문 데이터의 딥러닝 분석 - BERT의 활용 사회네트워크 분석과 Gephi - 기초 사회네트워크 분석과 Gephi - 심화 데이터 분석 결과를 통한 인문학적 해석 |
||
연구결과 | ○ 인문 데이터 분석 교육 콘텐츠의 결과물은 강의 동영상 22건과 위키독스(WikiDocs) 플랫폼으로 공개한 교재 1건이며, 교육 콘텐츠 결과물 이외에 교육적인 목적으로 활용할 데이터부터 최종결과물까지의 중간결과물을 포함하면 총 47건 12.5GB임. ○ 인문 데이터 분석 교육 동영상은 9개 대분야에서 총 22건(7시간 49분)을 완성했고, 최종 결과물은 유튜브를 통해서 공개할 예정임. ○ 인문 데이터 분석 교육 동영상에 대응하는 “인문 데이터 분석 교육 교재”를 온라인 책 편찬 플랫폼인 위키독스(WikiDocs)(https://wikidocs.net/book/8451)를 통해, 200자 원고지 약 1158.2매 (A4 360장)의 분량을 집필함. 위키독스 플랫폼을 통해서 공개하였으며, 지속적인 수정·보완을 진행하여 디지털 출판을 진행할 예정임. |
||
참고문헌 | 단행본 David Mertz, 2023, 『데이터 과학 효율을 높이는 데이터 클리닝』, 에이콘출판 Fillippo Menczer·Santo Fortunato·Calyton A. Davis, 2022, 『네트워크 분석』, 에이콘출판 Jacob Eisenstein, 2022, 『자연어 처리의 정석』, 에이콘출판 John Scott·김효동·김광재, 2012, 『소셜 네트워크 분석』, 커뮤니케이션북스 김낙현·임현열·한승우, 2020, 『인공지능인문학 Full Course』, 인문과교양 김현, 2012, 『인문정보학의 모색』, 북코리아 데이터분석과인공지능활용편찬위원회, 2021, 『데이터 분석과 인공지능 활용(사회)』, 노스보스 데이터분석과인공지능활용편찬위원회, 2021, 『데이터 분석과 인공지능 활용(인문)』, 노스보스 박상언·강주영·정석찬, 2022, 『파이썬 텍스트 마이닝 완벽 가이드』, 위키북스 에자키 타카히로, 2021, 『데이터 해석학 입문』, 위키북스 이기창, 2019, 『한국어 임베딩』, 에이콘출판 이수상, 2012, 『네트워크 분석 방법론』, 논형 전봉관 등, 2022, 『디지털인문사회과학 교육 프로그램 개발 및 확산 방안 연구』, 경제·인문사회연구회 쿠지라 히코우즈쿠에, 2019, 『파이썬을 이용한 머신러닝, 딥러닝 실전 개발 입문』, 위키북스 논문 강우규·김바로, 2019, 「계량적 문체 분석을 통한 <소현성록> 연작의 변이양상 고찰 - 이대15권본과 규장각21권본을 중심으로 -」, 『국제어문』 강우규·김바로, 2019, 「고전소설에 대한 디지털 감정 분석방법론 탐색 - <구운몽>을 대상으로」, 동아시아고대학 김바로, 2019, 「딥러닝으로 불경 읽기 - Word2Vec으로 CBETA 불경 데이터 읽기」, 『원불교사상과 종교문화』 김바로·강우규, 2019, 「빅데이터와 고전문학 연구방법론」, 『語文論集』 김바로·강우규, 2022, 「한국 대중 서사 기반 감정 데이터 구축과 활용 - 감정 딥러닝 모델 구현을 통한 문학 연구의 활용 가능성 탐색을 중심으로 -」, 『인공지능인문학연구』 김성문·김바로, 2020, 「디지털 분석 기법을 활용한 시조 연구 방법 탐색 -『한국시조대사전』 수록 단형시조를 중심으로-」, 『다문화콘텐츠연구』 김인후·김성희, 2022, 「딥러닝 기반의 BERT 모델을 활용한 학술 문헌 자동분류」, 『정보관리학회지』 김현, 2013, 「디지털 인문학 : 인문학과 문화콘텐츠의 상생 구도에 관한 구상」, 『인문콘텐츠』 김혜진, 2020, 「텍스트 마이닝을 활용한 한국학 주경로(Main Path) 분석: ‘한국’을 키워드로 포함하는 SCOPUS 문헌을 대상으로」, 『정보관리학회지』 문한별, 2015, 「한국 현대소설의 기계적 문체 분석 가능성을 위한 계량적 방법론」, 『국어국문학』 박치성, 2013, 「텍스트 네트워크 분석: 사회적 인식 네트워크(socio-cognitive network) 분석을 통한 정책이해관계자 간 공유된 의미 파악 사례」, 『정부학연구』 배정환·손지은·송민, 「텍스트 마이닝을 이용한 2012년 한국대선 관련 트위터 분석」, 『지능정보연구』 서재현·김병준·김민우·박소정, 2021, 「멀리서 읽는 “우리” - Word2Vec, N-gram을 이용한 근대 소설 텍스트 분석」, 『대동문화연구』 이병찬, 2020, 「『한국문집총간』 엔그램 분석 프로그램 개발 연구」, 『한국학문학연구』 이수상, 2014, 「언어 네트워크 분석 방법을 활용한 학술논문의 내용분석」, 『정보관리학회지』 장만호·김일환, 2018, 「일제강점기 신문 독자투고시의 시어 사용 양상」, 『우리문학연구』, 전성규·김병준, 2019, 「디지털인문학 방법론을 통한 <서북학회월보>와 <태극학보>의 담론적 상관관계 연구」, 개념과 소통 전은진, 2017, 「김수영과 신동문 시의 계량언어학적 분석」, 『한국언어문화』 정유경, 2020, 「텍스트의 계량 분석을 활용한 근대전환기 신문의 시계열적 주제 분석법 - 『황성신문』 논설을 대상으로」, 『역사문제연구』 정효정·배정환·홍수린·박찬웅·송민, 「정치적 이념에 따른 트위터 공간에서의 집단 간 의견차이 분석 : 세월호사건을 중심으로」, 『한국언론학보』 웹사이트 KAIST 디지털인문사회과학부 대학원 홈페이지: https://ghss.kaist.ac.kr/pages/sub/sub03_01 서울대학교 인문데이터과학 연계전공 홈페이지: https://dsh.snu.ac.kr/ 연세대학교 인문융합교육원 홈페이지: https://chcenter.yonsei.ac.kr/ 위키독스(WikiDocs): https://wikidocs.net/ 한림대학교 디지털인문예술전공 홈페이지: https://sites.google.com/view/dah-hallym/ 보도자료 교육부, “디지털 인재양성 종합방안”, 2022년 8월 22일. |
||
연구결과물 |
결과보고서_인문학도를 위한 데이터 분석 교육 콘텐츠 편찬.hwp
(붙임 2)연구결과물_파일_목록.txt |
전체 연구결과 요약 | |
---|---|
○ 디지털 분석 방법은 기본적으로 표상체(sign)에 대한 초고속 처리에 불과함. 일례로 디지털 언어분석 방법은 방대한 텍스트에 출현하는 각 표상체를 표상체 식별 체계(형태소 사전, 띄어쓰기, 문장 부호 등)를 통하여 식별하고, 그 출현 빈도를 정확하게 헤아려 대상 텍스트의 전체적인 모습을 탐색하는 방식임. 그런데 표상체에 대한 통계 결과는 단지 숫자일 뿐 그 자체로 의미를 가지고 있지 않기에, 연구자의 해석을 필요로 함. 즉 디지털 방법 자체는 표상체만을 대상으로 하고 있으며, 대응하는 해석체를 탐색하고 표상체와 해석체를 연결하는 것은 인문학자의 역할로 남아 있음. ○ 따라서, 인문학자가 디지털 리터러시를 갖추게 되면, 인문학자들은 개인 연구의 한계로 접근하기 어려웠던 대규모 텍스트를 대상으로 하는 연구를 인문학 연구에 도입할 수 있게 될 뿐만이 아니라, 정보공학만으로는 불완전했던 디지털 분석 방법의 한계를 극복할 수 있음. 이에 인문학자의 디지털 분석 능력을 향상 시킬 수 있는 교육 콘텐츠를 편찬함. ○ 본 연구과제에서는 인문학을 위한 디지털 리터러시(Digital Literacy) 함양을 위하여, <인문지식 처리와 프로그래밍> 강의에서 배우는 디지털 분석 방법론을 각각 교재와 교육 동영상으로 제작하여, 위키독스(WikiDocs)와 유튜브(YouTube)를 통해서 공유함. ○ 연구결과물목차 인문 데이터 분석 입문 데이터 전처리 - 정규표현식 데이터 분석 환경 구축 인문 텍스트 데이터의 형태소 분석 인문 데이터의 딥러닝 분석 - word2vec의 활용 인문 데이터의 딥러닝 분석 - BERT의 활용 사회네트워크 분석과 Gephi - 기초 사회네트워크 분석과 Gephi - 심화 데이터 분석 결과를 통한 인문학적 해석 ○ 인문 데이터 분석 교육 콘텐츠의 결과물은 강의 동영상 22건과 위키독스(WikiDocs) 플랫폼으로 공개한 교재 1건이며, 교육 콘텐츠 결과물 이외에 교육적인 목적으로 활용할 데이터부터 최종결과물까지의 중간결과물을 포함하면 총 47건 12.5GB임. ○ 인문 데이터 분석 교육 동영상은 9개 대분야에서 총 22건(7시간 49분)을 완성했고, 최종 결과물은 유튜브를 통해서 공개할 예정임. ○ 인문 데이터 분석 교육 동영상에 대응하는 “인문 데이터 분석 교육 교재”를 온라인 책 편찬 플랫폼인 위키독스(WikiDocs)(https://wikidocs.net/book/8451)를 통해, 200자 원고지 약 1158.2매 (A4 360장)의 분량을 집필함. 위키독스 플랫폼을 통해서 공개하였으며, 지속적인 수정·보완을 진행하여 디지털 출판을 진행할 예정임. |
|
세부과제별 요약 | |