이 방법이 평판형 스캐너로 북스캔하는 최적의 방법은 아니겠지만 일단 지금으로선 비교적 만족스럽게 사용하고 있다.
북스캔 절차
북스캔 과정은 다음 3가지로 순서로 진행된다.
1. 스캔 -> 2. 보정 -> 3. OCR (OCR은 선택..이지만 안 할이유가 없다)
@echo off mkdir odd; even for /L %%i in (1,2,10) do if exist 00%%i.* (move 00%%i.* .\odd) for /L %%i in (11,2,100) do if exist 0%%i.* (move 0%%i.* .\odd) for /L %%i in (101,2,999) do if exist %%i.* (move %%i.* .\odd)
for /L %%i in (2,2,9) do if exist 00%%i.* (move 00%%i.* .\even) for /L %%i in (10,2,99) do if exist 0%%i.* (move 0%%i.* .\even) for /L %%i in (100,2,999) do if exist %%i.* (move %%i.* .\even)
===============================================
파일명이 001~999 일 때 (확장자 무관) 정상적으로 돌아가는데,
odd, even 폴더를 만들고 거기에 홀수, 짝수 파일들을 이동시킨다.
@echo off move .\even\out\*.* .\ move .\odd\out\*.* .\ rmdir /s even rmdir /s odd
===============================================
even, odd 폴더 안에 ScanTailor 작업이 끝나서 out 폴더가 있을 때 사용한다.
even\out, oddd\out 폴더 안에 있는 파일들을 다 모아주고
마지막에 폴더를 지울꺼냐고 물어보는데 y를 입력하고 엔터를 누르면 폴더를 지워준다.
y입력하기 전에 정상적으로 파일들이 모였는지 확인하고 지우는 편이 안전하다.
_M#]
1. 스캔
먼저 내가 스캔할 책의 사이즈에 따라 스캔할 영역과 스캔품질등의 설정을 먼저 잡아줘야 한다.
스캐너 전원이 켜져있고 컴퓨터랑 연결된 상태에서 Avision Capture Tool 프로그램을 열고,
왼쪽 상단의 Setup을 눌러서 스캐너 속성 창을 띄운다.
"이미지"탭
특수한 경우가 아니면 일반 책들은 "앞면 그레이"에서 "해상도(dpi)" 300 정도면 괜찮다.
해상도가 올라갈수록 스캔 품질은 좋아지지만 그만큼 한번 스캔하는데 걸리는 시간도 오래 걸린다.
"미리보기"탭으로 가서,
스캐너에 책을 올려두고 (가급적이면 페이지는 중간쯤이 좋다. 맨 앞이나 맨 뒤는 스캔되는 위치가 평균보다 좀 한쪽으로 몰려있기 때문에..)
아래쪽의 미리보기를 누르고 "용지"탭으로 이동한다.
"용지"탭에서 스캔 영역을 정한다.
오른쪽에 나온 미리보기 이미지 위를 드래그하면 내가 원하는 영역을 정할 수 있다.
대충 긁고 세부 조정은 왼쪽의 XY오프셋, 폭, 길이 등으로 조절할 수 있다.
너무 책 사이즈에 딱 맞게 하기보다는 가장자리에서 약간만 안쪽으로 들어오게 정하는 편이 좋다.
나중에 Scan Tailor에서 잡아줄수도 있긴 하지만, 책 가장자리나 중앙 부분은 보통 잘라내게 되기 때문.
대부분의 책이 자체적으로 여백이 잡혀있어서 영역 잡는게 어렵진 않은데,
가끔 책 중에 사진이 페이지의 안쪽에 들어오는 것이 아니라 가장자리 끝까지 닿아있거나, 매 챕터의 시작부분에 이미지 등이 가장자리까지 크게 자리잡은 책의 경우는 스캔영역을 책 크기랑 거의 동일하게 잡아야 한다.
어느정도 지정이 됐으면 "미리보기"탭으로 돌아와서 다시한번 미리보기를 해 본다.
홀수쪽, 짝수쪽, 예외페이지(ex. 사진이 크게 있는 페이지) 등도 한번씩 미리보기를 해보며 영역 설정을 한다.
확인을 누른 뒤 왼쪽 위에 Scan버튼으로 시험스캔을 한 번 해본다.
스캔이 되면 다시 Setup으로 들어가서 이제 밝기조절을 한다.
"색상제거"탭에 보면 "배경 레벨"이 있는데
이 값이 낮을수록 연하고 밝게, 글씨가 얇게 스캔된다.
반대로 이 값이 높으면 글씨가 진해지고 두꺼워지면서 전체적으로 어둡게 스캔된다.
책마다 인쇄상태가 달라서 매번 설정해주는게 좋다.
정해진 값은 없지만 경험상 160~200 사이가 적절했다.
위 사진을 보면 205로 스캔되었는데 아래처럼 180으로 바꿔서 다시 한 번 스캔해서 비교해본다
*프로그램 상단 오른쪽에 폴더아이콘 우측의 아이콘을 누르면 내가 스캔한 페이지가 원래 사이즈대로 나온다.
↑205 ↓180
↑최종적으로 이 책은 160정도로 약간 밝게 스캔하기로 했다.
한 페이지만 가지고 정하기 보다는 몇개 페이지로 시험해보는게 좋다.
그림이나 표가 있는 페이지가 있다면 그 페이지를 기준으로 정하는게 텍스트만 있는 페이지만 보는 것 보다 좋은 결과가 나온다.
이 외에 다른 부분은 특별히 건드리지 않아도 되고,
"옵션"탭은 이정도로 설정하면 된다.
이건 처음에 한번만 설정해두면 그 뒤로는 안건드려도 된다.
회전각도는 없음으로 하고 나중에 Scan Tailor에서 홀수페이지 일괄적으로 180도 돌려주는게 편하다.
여기까지 했으면 이제 그냥 Avision Capture Tool은 그냥 끄고 AVScan을 연다.
그대로 끄면 설정해둔 정보대로 AVScan에서 스캔이 된다.
AVScan에서는 특별히 따로 설정할 것은 없다.
Profile, Twain Interface 둘 중 Profile을 선택해두고,
Scan -> Scan Mode -> Flatbed Auto Scan에 체크를 한다.
그 뒤에 왼쪽 상단의 초록색 플레이 버튼을 누르면 이런 대화상자가 따는데,
Auto Scan을 고르고 Interval을 정한다.
손이 많이 느리지 않으면 1초만 줘도 스캔하는데 무리가 없지만,
손이 느리거나 책이 특이해서 넘기기 어렵거나 하면 2초 이상으로 정해준다.
* 하다보면 가끔씩 시간에 맞춰서 페이지를 못넘겨서 이상하게 스캔되는 경우가 생기는데,
그 빈도수가 어쩌다 한두번이면 괜찮은데 너무 자주 찐빠나면 초를 늘려주는게 좋다.
어쩌다 한두장씩 실수하는 페이지는 매번 자동스캔 중지하고 다시 하는 것 보다, 그대로 제대로 다시 스캔하고 넘어가고 나중에 한번에 이상하게 스캔된 이미지들 찾아서 삭제하는게 훨씬 편하다.
이제 Start를 누르면 스캔이 시작되는데, 여기서 중요한 포인트가 있다.
위 사진 왼쪽에 보이는 것 처럼 AVScan은 파일이름을 0000001부터 시작하게 되고,
미리보기 화면상단에도 그 번호가 뜬다.
그렇기 때문에 내가 스캔하는 책의 페이지와 미리보기 창의 번호가 일치하게 만들면 잘못된 페이지 찾아서 삭제할 때, 그리고 나중에 파일이름 정리해서 홀수 짝수 페이지 나눌 때 훨씬 편하다.
보통 책의 처음 몇 페이지에는 페이지 번호가 안 써있지만, 뒤에서부터 세어서 1쪽을 맨 처음에 스캔하도록 한다.
가끔 책중에 앞의 목차부분은 다르게 넘버링을 하는 경우가 있는데 (로마자로 I, II를 쓴다던지)
이런 경우는 본문 따로, 목차 따로 스캔해서 나중에 정리하는게 차라리 편하다.
스캔을 할 때는 다른 영상을 보면서 하면 좋은데, 가급적이면 다른 화면에서 영상을 보고, 위 미리보기 화면은 항상 띄워둬서 제대로 스캔되고 있는지 종종 모니터링 하는게 좋다.
개인적으로 저렇게 미리보기창을 2개만 띄워놓고 위의 번호와 책 페이지 번호가 맞는지 가끔씩 확인해주는 방식으로 하는게 좋은 것 같다.
중간에 한 번 실수하면 그 페이지를 그대로 다시 한 번 스캔하고, 그 뒤로는 미리보기 창의 번호-1이 페이지 번호와 일치하는지 확인하면서 진행.
만약에 이 차이가 너무 커지면 잠깐 중지하고 잘못 스캔된 페이지들 싹 삭제하고 다시 시작하면 된다.
스캔이 다 끝나면 왼쪽 목록을 쭉 돌면서 (Page Up, Page Down) 잘못된 부분들 찾아주면 된다.
위 사진의 경우, 미리보기 화면에는 307, 308이라고 되어있는데 실제 책의 페이지는 306, 307로 한 페이지씩 차이가 나고 있다.
위로 거슬러 올라가면서 차이가 시작되는 부분을 찾는다.
올라가보니 305페이지를 한 번 잘못 스캔해서 다시 스캔해서 원래 306이어야 하는 페이지에 305 페이지가 한 번 더 찍힌 경우였다. 왼쪽 305페이지를 선택해서 삭제하면 해결된다.
이런식으로 중간에 실수했던 페이지들을 찾아서 다 삭제하면서 AVScan에서 정해주는 페이지 번호랑 실제 책의 페이지 번호가 처음부터 끝까지 맞도록 조정한다.
다 정리가 되면 왼쪽 Batch 아래 AVScan폴더를 우클릭하고 Export Images를 선택한다.
*원래는 저기 폴더를 생성해서 스캔을 시작해도 되는데, 그냥 기본 AVScan폴더 안에서 작업해도 상관은 없다.
스캔파일들을 저장할 위치와 파일유형을 선택하게 되는데
JPEG와 TIF 중, 일반적으로는 TIF에서 LZW로 무압축을 하는게 제일 품질이 좋다고는 하지만, 위 사진처럼 JPEG에서 quality 100으로 두는 경우도 품질의 변화가 크게 드러나진 않았다.
애초에 사진을 스캔하는게 아니라 흑백의 책을 스캔해서 문자인식을 하는게 목표다 보니..
여기까지 하면 내가 설정한 위치에 이미지파일들이 저장된다. (이제 스캐너 사용은 끝이다)
만약 뒤에서 보정하다가 실수로 이미지를 날리더라도, AVScan을 다시 켜서 Export 하면 스캔한 이미지를 다시 저장할 수 있다.
AVScan의 파일들을 지우는건 정말 스캔과 OCR까지 끝나서 PDF파일이 완성됐을 때 지우자.
컴퓨터에 용량이 충분하다면 굳이 안지워도 되겠지만, 사실 PDF파일로 만든 뒤에는 AVScan이 들고있는 파일들은 아무데도 쓸모가 없으니..
다음에 할 일은 파일이름을 정리하는 것이다.
AVScan에서 Export를 하면 보통
"날짜_124155_000000124_0.tif"
뭐 이런식으로 0 번부터 파일들이 저장된다.
Advanced Renamer를 사용하면 파일명을 정리하기 편하다.
위 사진처럼 오른쪽부분에 모든 파일을 드래그해서 넣고 왼쪽에서 태그를 입력하면 된다.
일반적으로 대부분의 책은 몇백쪽이고 1페이지부터 스캔을 하기 때문에 <Inc Nr:1>을 사용한다.
****참고
<Inc Nr> 태그를 사용하면 파일 개수에 따라 자동으로 앞에 0이 채워진다.
가령 파일이 100개가 넘으면 1번이 001로 되는 방식인데, 1,2,3...15,16...101,102... 이런식으로 변경하고 싶으면 Program -> Setting -> Renaming -> Use zero padding in Nr tags 에 체크를 해제하면 된다.
태그를 잘 사용하면 파일명 변경에 유용하게 쓰이는데, (태그도큐먼트 <- 여기에 자세하게 나와있다.)
Nr 태그의 경우 <Inc Nr:시작값:증가값> 이다.
예를들어 <Inc Nr:1,2> 이렇게 하면 파일이름이 1,3,5,7... 이렇게 홀수로 올라가고
<Inc Nr:6,2> 이렇게 하면 6,8,10,12.... 이렇게 짝수로 올라가게 할 수도 있다.
****
다 됐으면 Filename 탭을 두번 눌러서 정렬해준다. (이거 생략하고 그냥 바꾸면 엄청 꼬인다)
New Filename을 보고 원하는대로 됐는지 확인하고 Start Batch를 눌러서 파일명을 변경한다.
이미지파일의 이름과 실제 책 페이지가 일치하는지 확인해본다.
Split.bat (위 사진에서는 oddEven.bat으로 나왔다)파일을 이미지파일들이 있는 폴더에 넣고 실행시키면 cmd창이 잠깐 뜨면서 홀수 페이지와 짝수 페이지를 각각의 폴더로 이동시킨다.
기본적으로 1000장 이하의 책을 기준으로 적은 bat파일이라서, 만약 1000장이 넘어가는 경우 아래처럼 약간 수정해서 사용하면 된다.
for /L %%i in (1,2,10) do if exist 000%%i.* (move 000%%i.* .\odd) for /L %%i in (11,2,100) do if exist 00%%i.* (move 00%%i.* .\odd) for /L %%i in (101,2,1000) do if exist 0%%i.* (move 0%%i.* .\odd)
for /L %%i in (1001,2,9999) do if exist %%i.* (move %%i.* .\odd)
for /L %%i in (2,2,9) do if exist 000%%i.* (move 000%%i.* .\even) for /L %%i in (10,2,99) do if exist 00%%i.* (move 00%%i.* .\even) for /L %%i in (100,2,999) do if exist 0%%i.* (move 0%%i.* .\even)
for /L %%i in (1000,2,9999) do if exist %%i.* (move %%i.* .\even)
* 보통 책은 1000 페이지 미만이기 때문에
for /L %%i in (1001,2,9999) do if exist %%i.* (move %%i.* .\odd)
for /L %%i in (1000,2,9999) do if exist %%i.* (move %%i.* .\even)
이 두 줄을 지우는게 작업을 조금 더 빨리 끝낼 수 있다.
추가적으로 1000, 999 이 숫자들도 마지막 파일 번호 (예. 349) 등으로 바꿔주면
조금 더 빠르게 작업을 마칠 수 있다.
그냥 이대로 돌려도 상관은 없지만, 약 9000회x2 이상의 쓸데없는 명령이 돌기때문에..