다음 많이본 뉴스 크롤링

저는 네이버뉴스보다 다음 뉴스를 많이 봅니다.

특히 다음뉴스의 댓글 많은 뉴스를 제일 먼저 봅니다.

 

어떻게 크롤링 하는지 같이 해보아요.

 

기본 적인 방법은 네이버 블로그 및 네이버 뉴스 크롤링과 동일해요

2020/03/15 - [분류 전체보기] - 파이썬 크롤링 따라하기 - 네이버 검색결과2(feat. BeautifulSoup)

2020/03/16 - [분류 전체보기] - 파이썬 크롤링 따라하기 - 네이버 뉴스 검색

 

다음뉴스는 소스코드를 보니

select_one 함수와 attrs 함수를 같이 사용해서 출력했어요.

특히 1위~15위 출력은 함수를 사용해서 가져올 수 있지만

함수값이 복잡하게 나옵니다.

 

1위는 num_news num1,

2위는 num_news num2,

3위는 num_news num3

 

이럴바엔 그냥 번호를 하나 순서대로 부여하는게 좋을것 같아요.

 

num 변수를 만들고,

이 변수는 1부터 시작할거에요.

 

그리고 1위 정보를 크롤링하고 나면,

1씩 더할꺼에요. num += 1

 

이렇게 하면 15위까지 주르륵 나올꺼에요. 

 

소스코드

#다음뉴스 '댓글많은 뉴스' 검색결과 가져오기
import urllib.request
from bs4 import BeautifulSoup

url = 'https://m.media.daum.net/m/media/ranking/bestreply'
html = urllib.request.urlopen(url).read()
soup = BeautifulSoup(html, 'html.parser')

title = soup.find_all(class_='link_news')

# print(title[0])
num = 1
print('----- 다음뉴스 : 댓글 많은 뉴스 -----')
print()

for i in title:
    print('[',num, end='위] ')
    print(i.select_one('.tit_news').text)
    print(i.attrs['href'])
    print()
    num += 1



실행결과

----- 다음뉴스 : 댓글 많은 뉴스 -----

[ 1위] 한국 진단키트 신뢰성 논란, 미 의원 "적절치 않다" vs 질본 ""WHO 인정한  진단법"
http://v.media.daum.net/v/20200315113441193?f=m

[ 2위] 문대통령 '잘하고 있다' 50.9%..'잘못하고 있다' 44.2%
http://v.media.daum.net/v/20200315070013031?f=m

[ 3위] "수술 급한데..대구서 왔다고 제돈 들여 검사부터 받으래요"
http://v.media.daum.net/v/20200315080508414?f=m

[ 4위] "이만희가 가장 두려워 하는 건 압수수색"..신천지 전 간부 고백
http://v.media.daum.net/v/20200315153107300?f=m

[ 5위] 40대 쿠팡맨 새벽 배송 중 숨져.."코로나 이후 물량 폭증"
http://v.media.daum.net/v/20200315162756374?f=m

[ 6위] 美의원 "FDA, 한국 진단키트 부적절 판단" 주장에 질본 "사실 아니다"(종합)
http://v.media.daum.net/v/20200315165305644?f=m

[ 7위] 목사 부부 확진 '은혜의 강' 교회서 환자 6명 발생(종합)
http://v.media.daum.net/v/20200315162551335?f=m

[ 8위] 日 아베 총리 "코로나19 확진자, 韓보다 적어..예정대로 개최하겠다"
http://v.media.daum.net/v/20200315102109928?f=m

[ 9위] 日 "韓 입국제한, 알릴 건 다 알렸다"..靑 반박에 또 반박
http://v.media.daum.net/v/20200315115525477?f=m

[ 10위] "정치쇼라도 좋다"..'의사' 안철수가 대구서 보낸 15일
http://v.media.daum.net/v/20200315133033718?f=m

[ 11위] '한국 위기관리, 시민의식 부럽네'..발등에 불떨어진 프랑스
http://v.media.daum.net/v/20200315183426351?f=m

[ 12위] "장사 56년 만에 처음"..IMF 버틴 백년가게도 두손 들었다
http://v.media.daum.net/v/20200315080021355?f=m

[ 13위] 신천지 대구교회서 확보한 컴퓨터 48대 원래 장소로 옮긴다
http://v.media.daum.net/v/20200315090514870?f=m

[ 14위] "한국사람이었으면 좋겠다".. 美 ABC뉴스에 달린 놀라운 반응
http://v.media.daum.net/v/20200315203827528?f=m

[ 15위] 韓보다 코로나 확진자 적다며 올림픽 외친 아베..CNN, "감염 추이 이상해"
http://v.media.daum.net/v/20200315154440563?f=m

 

자 어떤가요?

1위~15위까지 다음 댓글많이 본 뉴스를 출력해봤는데요.

살짝 어렵긴 하지만. select_one, attrs를 적절히 사용하면 원하는 크롤링이 가능해요.

 

각 변수의 값 정의를 잘 살펴본다면 크롤링도 어렵지만은 않을꺼에요.

  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 라이프코리아트위터 공유하기
  • shared
  • 카카오스토리 공유하기