국립국어원, 북한 말뭉치 구축 추진

 


(2015-03-22) 국립국어원 북한 말뭉치 구축 추진


 


 


문화체육관광부 산하 국립국어원이 북한의 문어‧구어말뭉치를 정리, 구축하는 사업을 추진한다고 합니다.


 


말뭉치는 언어 연구를 위해 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료를 뜻합니다.


 


국립국어원은 실질적 통일을 위해 북한어 및 북한 언어문화에 대한 깊은 이해가 필요하지만 이를 위한 기초 자료는 부족한 상황이라고 인식하고 있다고 합니다.


이에 남북 언어통합 정책을 효율적으로 추진하고 실효성을 높이기 위해서는 현대 북한어 자료를 체계적으로 구축할 필요가 있다고 판단해 북한어 균형말뭉치 설계, 구축 사업을 추진한다는 것입니다.


 


국립국어원은 올해 연말까지 북한의 문어‧구어말뭉치를 균형적으로 구축하기 위한 단계별(3년 단위) 계획을 수립하고 연도별 구축 방안(말뭉치지도)을 설계할 것이라고 합니다.


 


또 북한 신문, 잡지, 문학작품, 교과서 등 문어 말뭉치 대상 자료 실태 조사와 말뭉치 설계 및 시범 구축도 추진한다고 합니다. 대상은 원시 자료 50만 어절 이상, 분석 자료는 10만 어절 이상이라고 합니다.


 


북한 뉴스, 영화, 드라마, 탈북민 구술 자료 등 구어말뭉치 대상 자료 실태 조사와 말뭉치 설계 및 시범 구축도 추진합니다. 원시 30만 어절 이상, 분석 5만 어절 이상이 대상입니다.


 


이렇게 만들어진 계획을 바탕으로 국립국어원은 1단계 북한어 말뭉치 구축사업으로 3년 간 3000만 어절 이상을 자료화하고 500만 어절 이상을 분석할 것이라고 합니다. 말그대로 방대한 북한어 연구 자료가 축적되는 것입니다.


 


분단이후 남북의 언어도 점차 달라지고 있습니다. 한국은 서울말을 기준으로 표준말을 쓰고 있으며 북한은 평양말을 기준으로 삼고 있습니다. 또 문화적, 사회적 차이로 인한 단어의 생성과 소멸로 언어의 차이가 나타나고 있습니다. 통일에 있어서 이런 언어문제가 불거지지 않도록 미리 준비하는 것이 필요할 것입니다. 


 


강진규 기자 wingofwolf@gmail.com


 


 

글쓴이

wingofwolf

디지털 허리케인(Digital hurricane)을 방문해 주셔서 감사합니다. 강진규 기자의 블로그입니다. 디지털 허리케인은 진짜 북한 뉴스를 제공합니다. 2007년 11월~2015년 9월 디지털타임스 기자, 2016년 6월~현재 머니투데이방송 테크M 기자, 인하대 컴퓨터공학부 졸업, 동국대 북한학과 석사과정 중

댓글 남기기

WordPress spam blocked by CleanTalk.