2010년 4월 24일 토요일

DVD에서 SUB 자막 추출하여 SMI로 변환하기

개인이 자막 작업을 할 일은 별로 없겠지만 관심있는 분 계실까봐 올려둡니다.

 

DVD에 포함된 자막은 텍스트 형식이 아닙니다. 그래픽 형태이기 때문에 SMI 자막을 만드려면 직접 보면서 타이핑을 해야 합니다. 그런데 OCR 이라는 문자 판독 기능으로 어느정도 자동화가 가능합니다. 영어 자막의 경우 매우 정확하고 빠르게 진행이 가능하지만 한글 자막은 음절 단위가 워낙 많기 때문에 초반에 매트릭스를 구성하는데 시간이 많이 걸립니다. 직접 해보시면 아마 자막 제작하시는 분들의 노고를 이해하실 수 있을 것입니다.

 

 

 

 

 

먼저 SUB, IDX 파일을 추출해야 합니다. VSRip 프로그램을 실행하여 DVD 원본에서 메인 비디오 트랙의 IFO 파일을 불러옵니다. 그리고 Save To 에는 저장할 위치를 지정해줍니다.

 

 

 

Next 누르시면 추출할 자막을 선택하는 부분이 나오는데 다른건 그대로 두시고 추출할 Languages 부분만 선택한 다음 Next 누르시면 SUB, IDX 추출이 시작됩니다.

 

 

 

한 1-2분이면 추출 될 겁니다. 추출이 끝나면 종료하시면 됩니다.

 

 

 

이렇게 추출된 SUB, IDX 파일은 그냥 자막 파일로 바로 써도 됩니다. 웬만한 동영상 재생기들은 전부 다 인식을 합니다. 동영상 이름과 동일하게 SUB, IDX 파일의 이름을 변경해주시면 SMI 자막처럼 자동으로 인식합니다.

 

어쨌든 이 글의 목적은 추출한 파일을 가지고 SMI 자막을 만드는 것이니 다음으로 넘어가겠습니다.

 

제가 처음에는 이렇게 SUB, IDX 파일을 분리하지 않고 바로 SubRip 이라는 프로그램으로 작업을 해봤습니다. 그런데 영어 자막의 경우 나중에 오타 교정도 되고 매우 편리했지만 한글 자막의 경우 OCR 설정을 좀 해봤으나 뭔가 좀 안 좋더군요. 대신에 OCR 기능을 사용하지 않고 그냥 보면서 직접 타이핑 하기에는 좋았습니다. 궁금하신 분들은 SubRip도 한번 사용해보시기 바랍니다.

 

아무튼 이제 subresync 프로그램을 실행합니다. 이 프로그램은 VobSub 프로그램 안에 들어있는 툴인데 원래는 VobSub 프로그램으로도 SUB, IDX 추출이 가능하지만 윈도우 7 64비트 환경에서 정상적으로 작동하지 않길래 이렇게 VSRip 프로그램으로 먼저 추출하고 subresync 프로그램으로 SMI 파일을 만드는 쪽으로 설명을 드립니다.

 

subresync 프로그램을 실행하여 방금 추출한 SUB 파일을 불러줍니다. 그런 다음 Save As를 눌러서 형식을 SMI로 변경한 다음 저장 하시면 본격적으로 작업이 시작됩니다.

 

 

 

 

지금부터 열심히 노가다로 글자를 입력해주시면 됩니다. 한번 입력했던 글자가 다시 등장하면 그 다음엔 자동으로 인식해서 채워집니다.

 

 

 

 

진행하다 보면 완전한 음절 단위가 아닌 음소 단위로 잡히는 경우가 있습니다. 이때는 Extend 눌러서 영역을 확장시켜주시면 됩니다. 아래 그림은 '마' 라는 음절에서 'ㅁ' 부분만 선택된 상태입니다. 이런 경우 Extend 누르면 '마' 가 선택됩니다.

 

 

 

 

처음엔 DB 구축하는데 시간이 오래 걸리지만 대략 20~30% 진행되고나면 가속도가 붙어 척척 넘어가게 됩니다. 웬만하면 같은 음절로 자동 인식이 되어버리니까요. 물론 어디까지나 그림은 그림일 뿐이고 OCR이 완벽한건 아닙니다. 잘못 인식해서 오타가 날 수도 있고, 실수로 한번 오타를 입력하면 그 이후로는 끝까지 동일한 오타를 자동으로 입력하게 될테니 신중하게 하셔야 합니다. 끝까지 다 하신 다음엔 SMI 파일을 텍스트 에디터로 열어서 직접 눈으로 보며 오타 교정을 해주는게 좋겠지요?

 

이렇게 SUB 자막을 변환하는 것 말고 직접 자막을 수동으로 제작하려는 경우 '한방에'라는 프로그램과 SMISyncW라는 프로그램을 많이 사용합니다. 한방에는 제작자 홈피가 문을 닫은 것 같고 SMISyncW는 홈피가 있습니다.

 

한방에

 

 

 

 

SMISyncW - http://simiy.cafe24.com/

 

 

사용법은 저도 자막 제작자가 아니라서 잘 모르니 검색을 통해 배우시기 바랍니다. 싱크 조절이나 2CD 자막 하나로 합치는 것 정도는 할 줄 아는데 그건 나중에 포스팅하겠습니다.

댓글 8개:

  1. 오오.... 약간 어렵네요..;;;

    좋은 팁 감사합니다.

    답글삭제
  2. 비밀 댓글 입니다.

    답글삭제
  3. 요즘 한방에보다는 CCMP라는 프로그램을 더 많이 씁니다 ㅎㅎ

    답글삭제
  4. trackback from: VobSub를 이용하여 Windows 7 64bit에서 자막 추출하는 방법
    VobSub는 DVD로부터 자막을 추출 및 편집하는 프로그램이다. 마지막 버전인 2.23이 2002.12.11에 나온 이후 업데이트도 없고, 제작자 홈페이지도 닫힌 상태이다. 오래된 프로그램이다보니.. 이 프로그램은 Windows 7 64bit에서는 정상 작동하지 않는다. 다만, 모든 기능을 다 이용할 수는 없어도 자막 추출은 할 수 있다. 뭐, 굳이 VobSub가 아니라도 Windows 7 64bit에서도 DVD로부터 SUB 자막을 추출하는 프로그..

    답글삭제
  5. 저도 예전에 영어공부 좀 하려고 SubRip 과 VobSub 사용해서 자막 작업 종종 했었습니다. 영어공부 다시 시작 좀 해야겠는데...

    답글삭제
  6. trackback from: ABBYY FineReader 10 한글 OCR 프로그램 - 이미지에서 텍스트 추출
    최고의 OCR 성능으로 이름 있는 러시아 ABBYY사에서 한글을 포함한 전세계 186개 언어를 인식할 수 있는 OCR 소프트웨어인 FineReader 10 Professional Edition을 국내 총판 협력사인 디오텍을 통해 출시했습니다. 국산 한글 OCR 엔진의 성능 개선이 답보 상태인 상황에서 FineReader 10이 출시되어, 종이 문서를 스캐닝을 통해 전자 문서화하는 등의 고성능 한글 OCR이 필요한 분야에서 크게 활용될 수 있을 것 같..

    답글삭제