목록`` (1)
ultra_dev

개인 과제로파이썬을 통해 크롤링하고 수집한 데이터를 오픈서치 인덱스로 저장 및 활용하여 시각화하는 작업을 진행했다. 크롤링도 정적 크롤링과 동적 크롤링이 있었는데 request를 활용한 정적 크롤링 방식으로 진행했다. 이렇게 네이번 뉴스 검색 데이터를 aws opensearch 서버로 인덱스 저장 및 활용하는 방식으로 만들었다. 네이버 뉴스 Url 에서 가변적으로 변하는 부분을 변수로 받아서 입력 하게 하고 페이지별 뉴스가 보이는 곳에서는 뉴스 본문이 짤리기 때문에 네이버뉴스 링크를 타고 세부 기사 항목으로 들어간 뒤에 이렇게 제목, 본문, 언론사, 날짜같은 데이터들을 수집했다. 이렇게 저장을 하면 인덱스 작업을 거친 뒤 밑에 처럼 오픈서치 서버에 json 형태로 저장이 된다. 오픈서치란? ..
TIL&WIL
2023. 7. 2. 22:20