탑배너 닫기

전체메뉴보기

국립국어원, 중단됐던 '국가 말뭉치 구축사업' 10년 만에 재개



문화 일반

    국립국어원, 중단됐던 '국가 말뭉치 구축사업' 10년 만에 재개

    인공지능 등에 활용 가능한 국가 공공재 성격의 대규모 국어 말뭉치 구축
    2019년 말까지 8억 어절 신규 구축 계획 … 예산 204억
    지속적 구축, 공유, 활용 위한 통합 관리·운영 체계 구축

    6일 진행된 소강춘 국립국어원장 취임 100일 기자간담회에서 소 원장이 발언하고 있다. (사진=국립국어원 제공)

     

    국립국어원이 2007년 이후 중단됐던 대규모 국가 말뭉치 구축사업을 10년 만에 재개한다.

    예산 204억 원이 들어가는 프로젝트로, 향후 4차 산업혁명 시대의 인공지능 서비스 개발 및 기술 혁신을 위한 중요 자료가 될 전망이다.

    소강춘 국립국어원장은 6일 서울 광화문 한 식당에서 진행한 취임 100일 기자간담회에서 내년도 추진하는 대표 사업 중 하나로 '말뭉치 구축'을 꼽았다.

    말뭉치란, 언어 연구를 위해 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료이다.

    한국에서는 지난 1998년부터 2007년까지 '21세기 세종 계획'이라는 이름으로 말뭉치 구축 사업이 진행된 바 있다.

    당시 사업을 통해 약 2억 어절을 구축했으나, 이후 예산이 반영되지 않으면서 중단됐다.

    그 기간 구축된 말뭉치는 '전자사전 개발', '한민족 언어 정보화' 등 다양한 사업에 활용됐지만, 그 효용성을 크게 인정받지 못했다.

    그러다 4차 산업혁명 시대를 앞두고 인공지능 개발이 각광을 받으면서, 그 기반이 되는 말뭉치 사업에 예산이 내년도부터 반영됐다. 총 204억이 이 사업에 책정됐으며, 이는 국립국어원 기존 예산과는 별도이다.

    선진국의 경우 인공지능 기술 개발 등에 대응할 수 있는 '말뭉치 구축 사업'을 위해 국가 차원에서 공을 들이고 있다.

    소 원장은 "일본이 150억 어절, 중국이 300억~800억 어절, 미국이 3000억 어절 규모의 말뭉치를 구축한 상황이다"며, "우리는 한 발 늦은 게 현실이다"고 전했다.

    때문에 국립국어원은 내년 말까지 8억 어절을 신규 구축하는 데 속도를 낸다는 계획이다.

    소 원장은 "기존의 2억 어절을 포함해 총 10억 어절 규모가 된다면, 인공지능이 스스로 학습하기 위한 최소한의 자료가 될 수 있을 것이다"고 예상했다.

    그는 "과거보다 말뭉치 구축을 위해 필요한 기술이 많이 발전했다"며, "특히 알파고 등장 이후 심층 기계 학습(딥러닝)이라는 학습 기법이 여러 분야에서 매우 효율적으로 활용되고 있는데, 이 기술을 적극적으로 활용하면 단기간에 많은 양을 구축하는 것이 가능할 것이다"고 보았다.

    국립국어원 측은 이후로도 예산만 확보된다면, 향후 10년간 총 150억 어절의 말뭉치를 구축할 장기 계획을 갖고 있다.

    소강춘 국립국어원장. (사진=국립국어원 제공)

     

    말뭉치는 '구축'도 중요하지만 '지속적인 개선 및 유통(공유)'도 필요하다.

    특히 4차 산업혁명 시대는 다양한 기술 개발을 시도할 수 있는 공개된 기초 자료가 필수적이다.

    소 원장은 "세종 말뭉치의 경우 구축해 놓고도 저작권 문제로 중소 규모 민간회사가 활용하는 데 제약이 있었던 게 현실이었다"고 전했다.

    그러면서 "이번 사업에서는 저작권 문제를 선결한 뒤, 지속적인 구축, 공유, 활용을 위한 말뭉치 통합관리 및 운영 체계를 구축해나갈 것이다"고 밝혔다. 국립국어원에서 구축한 말뭉치는 공공재이기 때문에 누구나 활용이 가능하다.

    이밖에 국립국어원은 ▲국어사전(우리말샘, 표준) 보완 ▲ 어려운 공공언어 이해하기 쉽게 개선 ▲남북의 이해 증진을 위한 언어 통합 사업 ▲특수언어(수어, 점자) 사용 환경 개선 및 기반 확대 등을 추진하겠다고 밝혔다.

    '우리말샘사전'의 경우 모든 언어 자원을 통합하고, 민간이 저작권 문제에 얽매이지 않고 자기 목적에 맞게 사전 정보를 활용할 수 있도록 할 계획이다.

    또한 차별 없는 소통 환경에 대한 시대적 요구에 부응하고자, 대규모 수어 말뭉치(전국 농인 100명 이상) 구축과 이를 통한 실증적 사전 편찬, 그리고 사용 목적별 '한국수어-한국어 사전', '한국어-한국수어 사전' 이원화 구축을 추진한다고 했다.

    이 시각 주요뉴스


    Daum에서 노컷뉴스를 만나보세요!

    오늘의 기자

    많이 본 뉴스

    실시간 댓글

    투데이 핫포토