[기고]재정 투명성과 AI…구슬을 꿰자

연합뉴스
국가AI전략위원회 전종홍 위원이 최근에 국가 AI 재정사업 533개, 41개 부처, 27조 5000억 원의 예산을 데이터로 변환했다. 그 얘기를 해보려고 한다. 기초 자료는 PDF 파일 5296페이지다. 전체 예산에서 AI 재정사업을 추려냈다. 인쇄용으로 만들어졌다. 기계 판독(Machine readable)이 사실상 불가능한 형태다.

내용을 보면 테이블의 컬럼 구조가 일치하지 않고(전체 533건), 페이지 경계에서 데이터가 잘리고, 사업명이 잘리고, 사용하는 특수문자가 서로 다르고. 당연히 5296페이지 PDF는 이대로는 전문가들도 전수 분석이 불가능하다. 일반 시민이 파악하지 못하는건 말할 것도 없다.

533개 사업이 동일한 양식을 사용토록 돼있으나 실제로는 부처마다 상당한 변형이 존재했다. 총괄표의 헤더를 변형하고, 내역사업 섹션의 헤더를 변형하고, 내역사업의 표기를 변형하고, 예산데이터의 위치를 변형한다.

데이터 표현도 제각기 달랐다. 음수를 표현하는 기호도 몇가지나 되고, 백만원을 쓰는 곳, 천원을 쓰는 곳, 원을 쓰는 곳 단위가 다르다. 증감률도 순증, 순감, 신규, 숫자 %를 섞어서 쓴다. 값이 없을 경우 표기도 네가지가 섞여서 쓰였다.

어떻게든 기계가 읽을 수 있는 형태로 바꾸는데 서른 개가 넘는 예외 로직을 새로 만들어야 했다. 갖은 고생을 해서 가까스로 기계가 읽을 수 있는 형태로 고쳤다. 이 과정에서 투입된 개발비용과 시간은 대체 누가 보상하나.

그 결과가 이 페이지(https://hollobit.github.io/KAIB2026/)이다. 다들 한번씩 꼭 열어보기를 바란다.

부처별 예산 비중, 사업유형분포, 회계유형별 예산구성, 예산 증가 Top10, 예산 증감률 분포, 예산 규모별 사업분포, 예산 요구액 대비 편성액 비교, 연도별 부처별 예산 변화추이 등 온갖 자료들을 한눈에 볼 수 있다. 부처별, 분야별 분석도 할 수 있고, 유사성 분석, 미래예산 시뮬레이터, 예산 인사이트 등도 볼 수 있다.

기계로 읽을 수 있는 형태로 만들자마자 인공지능을 이용해 이렇게 한눈에 볼 수 있는 현황판을 만든 것이다. 인공지능을 도입한다는건 이런 의미다. 충분한 데이터가 있으면 거의 대부분의 분석을 실시간으로 해볼 수 있다.

그래서 예산 분석을 잘하게 됐을까? 불행히도 그렇지 못했다. 533개 AI 재정사업 중 97개가 중복의심그룹으로 나타났다. 가령 국가통합바이오빅데이터사업은 데이터통합이 목적이지만 3개 부처로 분산돼 있다. 1009억 원이 배정돼 있다. AI응용제품 신속상용화는 동일사업이 부처별로 별도 편성된 것처럼 보였다. 2835억 원이 배정됐다. 키워드 클러스트로 봐도 비슷해 보이는게 많았다. 데이터센터는 16개 사업, 6개 부처, 2461억 원이 배정됐다. 바이오는 33건, 10개 부처, 2017억 원이 배정됐다. 로봇은 최다부처를 기록했다. 11개 부처, 36건, 1882억원이 배정됐다. 양자도 9건, 4개 부처, 938억 원이 배정됐다.

그런데 이게 정말 중복사업인지는 알기 어렵다. 앞에서 본 것처럼 데이터 정합성이 떨어지고, 표현이 제각기 다르고, 분류가 제각기 다르기 때문이다. 그러니 아주 초보적인 수준의 '중복의심사업'을 짚어낼 수 있을 뿐이다.

AI전략위원회만 이 고생을 해야 하는게 아니다. 국회 예산정책처는 매년 예산안 분석 시 부처별 예산서를 수동으로 검토한다. 41개 부처x533개 AI 사업의 교차 분석은 현행 인력과 도구로는 할 수가 없다. 상임위원회 소속 국회의원과 보좌관이 소관 부처의 AI 사업 현황을 파악하려면 5296페이지 PDF를 직접 탐색해야 한다. 예산결산특별위원회(예결위) 심의에서도, 교차부처 중복사업 지적은 개별 위원의 전문성에 의존한다. 체계적 데이터 분석은 엄두를 내지 못한다.

한국은 열린재정(openfiscaldata.go.kr)과 지방재정365(lofin.mois.go.kr) 두 개의 재정 공개 포털을 운영하고 있다. 그런데 둘 다 페이지당 결과물 한도를 제한(예: 100건씩)하고 있어, 전체 데이터를 한 번에 받기 위해서는 프로그래밍으로 페이지를 반복 호출해야 한다. 데이터 품질은 앞서 본 대로다. 미국은? 당연히 매일 갱신되는 전체 데이터베이스를 '기계가 읽을 수 있는' 형태로 통째로 다운로드받을 수 있게 제공한다.

인공지능은 방대한 데이터를 학습해 잠재된 패턴을 찾아내는 일을 한다. 데이터가 이러면 인공지능은 힘을 쓰지 못한다. 대한민국 AI 정부가 출발도 하지 못하고 주저앉을 판이다.

인공지능이 기뻐 날뛰게 만드는 법

한국정부는 어떻게 해야 재정데이터에 인공지능을 쓸 수 있게 될까?

열린재정은 부처별·기능별 총액 수준의 통계를 제공한다. '국방부가 올해 얼마를 썼는지'는 알 수 있지만, '국방부가 어떤 업체와 어떤 계약을 맺고 얼마를 지급했는지'는 알 수 없다.

정부의 디지털예산회계시스템(dBrain+)에서 관리하는 예산 집행 데이터를 세부사업-내역사업 단위까지 공개한다. 궁극적으로는 개별 계약, 보조금 교부 결정, 출연금 집행 건별로 수혜기관명, 금액, 집행일자, 사업목적을 공개해야 한다. 미국 연방정부 지출공개시스템(USAspending)의 개별 사업 단위, 영국정부의 정부통합회계보고시스템(OSCAR)의 분기별 세부 코드 단위가 벤치마크다. 다들 이미 하고 있는 일이다. 우리만 안하고 있었다. 현재 dBrain+에서 이미 관리되고 있는 세부사업별 예산현액·집행액·이월액 데이터를 API(기계가 자동으로 불러올 수 있게 해주는 키)로 공개하기만 하면 된다. 이것은 시스템 내부에 이미 존재하는 데이터다. 다른 노력이 필요없다.

기본적인 조회는 인증 없이 할 수 있어야 한다. 미국의 지출공개시스템 API는 어떤 인증도 요구하지 않는다. 대량 다운로드나 높은 빈도의 호출에 대해서 상한을 걸어두면 남용을 쉽게 막을 수 있다.

개방형계약데이터표준(Open Contracting Data Standard, OCDS)이라는 게 있다. OCDS는 공공 조달을 위한 유일한 국제 개방 표준으로, 전 세계 50개 이상의 정부가 시행하고 있다. 표준의 핵심 아이디어는 기획과 입찰에서 낙찰, 계약, 이행까지 조달 과정 전체를 고유 ID로 추적할 수 있어야 한다는 것이다.

이 데이터를 효과적으로 활용하면 정부가 가성비를 높이고, 부패를 예방하며, 경쟁을 촉진하고, 공공서비스 제공을 추적하는 데 도움이 된다. 나라장터 데이터를 OCDS 형태로 변환하여 공개하면, 글로벌 조달 분석 도구들과 즉시 호환된다는 것도 아주 큰 장점이다.

개방형재정데이터패키지(Open Fiscal Data Package, OFDP)라는 표준도 있다. 월드뱅크의 재정데이터개방촉진사업(BOOST 이니셔티브) 등이 공동 개발한 것으로, 현재 7개국 정부가 예산 및 지출 데이터를 공개하는 데 사용하고 있다.

이 두 표준을 연결하면 예산 배분, 조달 과정, 실제 지출을 하나로 연결하는 도구를 갖출 수 있다. 즉, '이 사업에 얼마가 배정되었고(OFDP) → 어떤 계약이 체결되었으며(OCDS) → 실제로 얼마가 집행되었는지'를 하나의 흐름으로 쉽게 추적할 수 있게 된다. 자, 이제 AI가 기뻐서 날뛰는 소리가 들리지 않는가! "먹고 살 데이터가 너무 많아요!"

중앙과 지방을 연결하자

연합뉴스
중앙과 지방의 데이터도 연결해서 함께 품질관리를 해야 한다.

중앙정부 데이터는 열린재정(기획재정부/재정정보원), 지방정부 데이터는 지방재정365(행정안전부)로 이원화되어 있다. 열린재정 자체도 지방재정 데이터는 API 연계 데이터로 제공하면서 "실 데이터와 차이가 날 수 있으니 지방재정365에서 확인하라"라고 안내한다. 데이터가 제대로 관리되고 있지 않다는걸 안다는 애기다. 두 시스템의 분류 체계, 갱신 주기, 데이터 품질이 다르다.

통합 데이터 카탈로그를 만들어야 한다. 물리적으로 시스템을 합치라는게 아니다. 중앙과 지방의 사업번호·기능분류 코드를 호환할 수 있는 표를 만들고, 하나의 API 게이트웨이에서 양쪽 데이터를 함께 들여다 볼 수 있게 한다.

이제 인공지능이 날뛸 수 있다. 예산현액보다 지출액이 큰 사업, 전년 동기 대비 300% 이상 변동한 항목, 코드 불일치 등을 자동 탐지해서 실시간으로 오류를 잡을 수 있다. AI 이상 탐지의 가장 기초적인 적용이다. 하나도 어렵지 않은 일이다.

앞에서 말했듯이 모든 재정 거래에 범정부 고유 ID를 부여한다. 미국은 데이터법으로 이것을 의무화하고 있다. dBrain+ 사업번호, 나라장터 계약번호, e-나라도움(보조금 시스템) 교부 번호 간의 매핑 테이블, 그러니까 '이 번호가 여기서는 이 번호에요'를 알려주는 표를 만들어 누구나 볼 수 있게 공개한다. 이것만으로도 처음부터 끝까지 '돈의 흐름 추적'이 가능해진다.

수혜기관과 업체에 대해서도 통일된 식별자를 적용한다. 사업자등록번호를 기반으로 하되, 동일 법인의 다양한 표기(주식회사 OO, OO(주), OO주식회사)를 묶어 '같은 업체가 여러 부처로부터 얼마를 받는지'를 집계할 수 있게 한다.

이렇게 하면 '이 예산이 어떤 계약으로, 어떤 업체에, 얼마가 갔는지'를 처음부터 끝까지 추적할 수 있다. 자, 이제 얼마나 놀라운 일이 일어날 것 같은가? AI가 달리고 싶어서 앞발을 구르는 소리가 들리지 않는가!

이제 핵심을 정리하자. 기계가 읽을 수 없는 데이터는 데이터가 아니다. 기계가 읽을 수 있는 데이터를 넘어 '기계가 이해할 수 있는 데이터'를 제공해야 한다. 그때 비로소 우리는 AI를 귀중한 도구로, 협력자로 받아들일 수 있다. 재정데이터를 이 지경으로 둔 채 AI 정부를 만드는 방법은 세상 어디에도 없다.

박태웅 녹서포럼 의장

지금 뜨는 뉴스

※CBS노컷뉴스는 여러분의 제보로 함께 세상을 바꿉니다. 각종 비리와 부당대우, 사건사고와 미담 등 모든 얘깃거리를 알려주세요.

이메일 jebo@cbs.co.kr
카카오톡@노컷뉴스
사이트https://url.kr/b71afn

박태웅 녹서포럼 의장 박태웅 녹서포럼 의장 메일