Rhino로 웹페이지 다운로드
컴퓨터관련/JSWebCrawler 공부 2017. 9. 1. 12:41 |자바스크립트와 Node.js를 이용한 웹 크롤링 테크닉
ch02 > Rhino/Narshon으로 다운로드해 보기
https://github.com/Jpub/JSWebCrawler/blob/master/ch02/01-download/download-rhino.js
여기에 나온 그대로 했더니
이런 식으로 오류가 난다.
자바쪽 코드에서 ioException이 난거같아서
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 | var url = "http://jpub.tistory.com/"; var savepath = "test.html"; var aUrl = new java.net.URL(url); var conn = aUrl.openConnection(); conn.addRequestProperty("User-Agent","Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)"); var ins = conn.getInputStream(); var file = new java.io.File(savepath); var out = new java.io.FileOutputStream(file); var b; while((b=ins.read()) != -1){ out.write(b); } out.close(); ins.close(); | cs |
이렇게
conn.addRequestProperty("User-Agent","Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)");
한 줄 추가하니까 잘 돌아감.