국립국어원 2017년 190만 어절 북한 말뭉치 구축

 

(2017-01-29) 국립국어원 2017년 190만 어절 북한 말뭉치 구축

국립국어원이 올해 4월부터 12월까지 2017년도 북한 말뭉치 구축 사업을 진행한다고 합니다.

북한어 말뭉치 구축 사업은 북한어 및 북한 언어문화에 대한 이해를 위한 기초 자료로 말뭉치를 활용하기 위한 사업입니다. 현대 북한어 자료를 체계적으로 구축해 실효성 있는 남북 언어통합 정책의 효율적 추진을 도모하는 목적이 있습니다.

말뭉치는 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합을 뜻합니다. 북한어 말뭉치는 북한어 및 북한 언어문화 연구, 통합 사전 편찬, 통합 교재 개발 등에 활용될 수 있습니다.

<사진1>

사진1은 그동안 진행된 사업의 추진 현황입니다.

 

2016년까지 총 원시 921만 어절, 분석 228만 어절의 말뭉치가 구축됐습니다.

올해는 문어 말뭉치 원시 100만, 분석 50만 어절 이상과 구어 말뭉치 원시 30만 및 분석 10만 어절 이상 등 총 190만 어절이 구축됩니다.

북한 신문, 잡지, 문학작품, 교과서 등 문어 말뭉치 대상 자료 실태 조사 및 말뭉치 구축이 진행되고 북한 뉴스, 영화, 탈북민 구술 자료 등에서 구어 말뭉치가 축줄될 예정입니다.

북한 후 한국은 서울말을 기준으로 표준어를 북한은 평양말을 기준으로 표준어를 사용하고 있습니다. 세월이 지날 수록 남북 언어의 이질성이 커지고 있습니다. 이를 극복하기 위해 남북 언어에 대한 연구가 지속적으로 이뤄져야할 것입니다.

강진규 기자 wingofwolf@gmail.com

 

국립국어원, 북한 말뭉치 구축 추진

 


(2015-03-22) 국립국어원 북한 말뭉치 구축 추진


 


 


문화체육관광부 산하 국립국어원이 북한의 문어‧구어말뭉치를 정리, 구축하는 사업을 추진한다고 합니다.


 


말뭉치는 언어 연구를 위해 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료를 뜻합니다.


 


국립국어원은 실질적 통일을 위해 북한어 및 북한 언어문화에 대한 깊은 이해가 필요하지만 이를 위한 기초 자료는 부족한 상황이라고 인식하고 있다고 합니다.


이에 남북 언어통합 정책을 효율적으로 추진하고 실효성을 높이기 위해서는 현대 북한어 자료를 체계적으로 구축할 필요가 있다고 판단해 북한어 균형말뭉치 설계, 구축 사업을 추진한다는 것입니다.


 


국립국어원은 올해 연말까지 북한의 문어‧구어말뭉치를 균형적으로 구축하기 위한 단계별(3년 단위) 계획을 수립하고 연도별 구축 방안(말뭉치지도)을 설계할 것이라고 합니다.


 


또 북한 신문, 잡지, 문학작품, 교과서 등 문어 말뭉치 대상 자료 실태 조사와 말뭉치 설계 및 시범 구축도 추진한다고 합니다. 대상은 원시 자료 50만 어절 이상, 분석 자료는 10만 어절 이상이라고 합니다.


 


북한 뉴스, 영화, 드라마, 탈북민 구술 자료 등 구어말뭉치 대상 자료 실태 조사와 말뭉치 설계 및 시범 구축도 추진합니다. 원시 30만 어절 이상, 분석 5만 어절 이상이 대상입니다.


 


이렇게 만들어진 계획을 바탕으로 국립국어원은 1단계 북한어 말뭉치 구축사업으로 3년 간 3000만 어절 이상을 자료화하고 500만 어절 이상을 분석할 것이라고 합니다. 말그대로 방대한 북한어 연구 자료가 축적되는 것입니다.


 


분단이후 남북의 언어도 점차 달라지고 있습니다. 한국은 서울말을 기준으로 표준말을 쓰고 있으며 북한은 평양말을 기준으로 삼고 있습니다. 또 문화적, 사회적 차이로 인한 단어의 생성과 소멸로 언어의 차이가 나타나고 있습니다. 통일에 있어서 이런 언어문제가 불거지지 않도록 미리 준비하는 것이 필요할 것입니다. 


 


강진규 기자 wingofwolf@gmail.com