국가법령정보센터 API를 활용해 법령정보 크롤링
작년에 업무관계로 법제 데이터 분석을 실시한 적이 있었다.
원래 국가법령정보센터의 법령을 일일히 조회해서 크롤링해서 데이터를 받아내야 하는가 하고 어쩌나 하고 있었는데,(무겁고 복잡하다)
찾아보니 법제처에서 아래와 같은 서비스를 제공하고 있었다.
국가법령정보 공동활용(LAW OPEN DATA)
여기에서 회원가입을 하고 API 사용 신청을 하면 하루이틀 안에 승인이 떨어진다.
그 이후 발급받은 API Key를 활용하여 데이터를 선택적으로 수집하면 된다.
당시 현행법령 본문을 모두 xml으로 받아냈었는데, 시스템이 안정적으로 동작해서 약 2기가의 전체 법령(법령+행정규칙)을 다운로드받는데 한번의 오류도 발생하지 않았다.
법령목록을 먼저 받은 다음에, 거기에 해당하는 법령의 고유번호를 기준으로 개별 본문을 불러들이는 방식을 추천한다.
(법령목록의 고유번호의 자리수도 제각각이고 일관성이 없어서, 모든 숫자를 기준으로 불러들이면 오류가 발생한다.)
다만 별도파일이나 이미지로 붙어있는 별표나 별지는 도무지 어케 처리할 방법이 없었다.