'컴퓨터관련/JSWebCrawler 공부'에 해당되는 글 1건

  1. 2017.09.01 Rhino로 웹페이지 다운로드

자바스크립트와 Node.js를 이용한 웹 크롤링 테크닉

ch02 > Rhino/Narshon으로 다운로드해 보기


https://github.com/Jpub/JSWebCrawler/blob/master/ch02/01-download/download-rhino.js

여기에 나온 그대로 했더니

이런 식으로 오류가 난다. 

자바쪽 코드에서 ioException이 난거같아서


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
var url = "http://jpub.tistory.com/";
var savepath = "test.html";
 
var aUrl = new java.net.URL(url);
var conn = aUrl.openConnection();
 
conn.addRequestProperty("User-Agent","Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)");
 
var ins = conn.getInputStream();
var file = new java.io.File(savepath);
var out = new java.io.FileOutputStream(file);
 
var b;
while((b=ins.read()) != -1){
  out.write(b);
}
 
out.close();
ins.close();
cs


이렇게

conn.addRequestProperty("User-Agent","Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)");

한 줄 추가하니까 잘 돌아감.



Posted by ark1230
: