최근 다른 웹페이지의 정보들이 많이필요한 작업이있엇다.
그래서 jsoup 를 이용해서 정보들을 사용했다.
Jsoup
Jsoup 은 DOM구조를 추적하거나 CSS선택자를 사용해서 데이터를 찾아 추출하는기능이다.
jar파일을 다운받아 lib폴더에 넣어도되고
메이븐을 사용중이라면 의존성을 추가하면 사용할수있다.
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.15.3</version>
</dependency>
1) URL
먼저 크롤링할 페이지를 변수에담아준다.
크롤링은 저작권문제가 있을수도있기때문에 실제 사이트는 적지않겟다.
String URL = "URL"
Document doc = Jsoup.connect(URL).get();
doc.html(); //html코드도 가져오기
doc.txtx(); //텍스트만가져오기
이런식으로 웹페이지의 정보를 가져올수있다.
2 ) select
특정 정보만가져오고싶다면 CSS 스타일 이나 태그를 선택해서 가져올수있다.
html 내용자체를 가져온후 Elements를 이용하여 태그를 select하여 파싱한다.
String url = "URL";
Document doc = Jsoup.connect(url).get();
Elements el = doc.select("#title span");
//#title 뒤에 span은 title자식은 span을 가져온다는뜻
여기까지가 내가사용한 Jsoup다 Jsoup의 대부분도쓰지않앗다. 이외에도 여러가지 데이터 추출방법이있다.
더알고 싶다면
https://jsoup.org/
jsoup: Java HTML parser, built for HTML editing, cleaning, scraping, and XSS safety
jsoup: Java HTML Parser jsoup is a Java library that simplifies working with real-world HTML and XML. It offers an easy-to-use API for URL fetching, data parsing, extraction, and manipulation using DOM API methods, CSS, and xpath selectors. jsoup implement
jsoup.org
이곳에서 찾아보면된다.
'개발 > Java' 카테고리의 다른 글
Java) 컬렉션 프레임웍 이란? (0) | 2024.04.16 |
---|---|
Java - JVM,JRE,JDK란 무엇인가? (0) | 2023.03.06 |