웹크롤링 2

[파이썬] 네이버 뉴스 페이지 웹 크롤링 - 텍스트, 링크, 이미지

저번 시간에 이어 실제로 네이버 뉴스 페이지를 웹 크롤링해 텍스트와 링크, 이미지를 가져오는 방법을 함께 해봅시다. 웹 크롤링의 단계를 간단하게 말하면,1. 원하는 웹 페이지의 html문서를 싹 긁어온다.  ☞ requests2. 긁어온 html 문서를 파싱(Parsing)한다.  ☞  BeautifulSoup3. 파싱 한 html 문서에서 원하는 것을 골라서 사용한다. ☞ find, select 여기에 한발 더 나아가서+ 텍스트, 링크, 이미지를 가져온다. ☞ get_text, attrs['href'], attrs['src']저번 글에서의 기본적인 크롤링을 이해하셨다면 이번도 잘 따라오실 수 있을 겁니다. ▶ 순서  1. 가져올 페이지 분석하기2. get_text로 텍스트 가져오기3. attr['hre..

프로그래밍 2024.12.21

[파이썬] 웹 크롤링(Web Crawling)하는 방법 2가지

웹 크롤링(Web Crawling)은 웹 페이지에 존재하는 데이터를 자동으로 수집하고 활용하는 기술로, 데이터 분석과 정보 수집에 필수적인 도구로 자리 잡았습니다. 이를 통해 뉴스 기사, 제품 정보, 가격 비교, 통계 자료 등 다양한 데이터를 손쉽게 확보할 수 있습니다. 하지만 크롤링 작업을 시작하기 위해서는 웹 사이트의 구조를 이해하고, 적절한 도구를 선택해야 합니다. 또한, 법적 문제와 크롤링 윤리를 준수하는 것도 매우 중요합니다.  파이썬 웹 크롤링하는 방법에는 requests + BeautifulSoup와 Selenium 이 있습니다.  그럼 이제 본격적으로 파이썬으로 웹 크롤링을 하는 방법에 대해 알아봅시다. requests + BeautifulSoup와 Selenium은 목적과 사용 방식에서 ..

프로그래밍 2024.12.16