본문 바로가기

크롤링3

word_cloud flask API 성공 word_cloud 기능 추가하기 뉴스 데이터를 받아와서 가장 많이 언급된 단어를 바탕으로 워드클라우드를 만드는 기능이다. 로컬에서 flask로 가상 웹을 만들고 만들어진 워드 클라우드를 S3에 업로드 하는 건데, 이거 돌리다가 서버가 자꾸 터져서 local에서 post man으로 API를 받을 수 있도록 실행해 보았다. https://codinghero.tistory.com/270 [POSTMAN] 포스트맨 사용법 (REST API 테스트) 오늘은 서버의 REST API를 테스트하기 위해서 PC 소프트웨어인 포스트맨을 설치했습니다 포스트맨은 HTTP 프로토콜의 테스트가 편리하기 때문에 웹 개발자들 사이에서는 이미 많이 사용되고 있는 codinghero.tistory.com 성공 결과 화면 local에서.. 2023. 12. 12.
Word_cloud 생성하기 크롤링해온 뉴스를 바탕으로 각 카테고리별로 word_cloud를 생성했다. 뉴스에서 가장 많이 언급된 이슈가 무엇인지 한눈에 파악할 수 있다. 일반적으로 많이 사용되는 단어들을 불용어 list에서 빠지도록 처리했다. from konlpy.tag import Okt from collections import Counter from wordcloud import WordCloud import matplotlib.pyplot as plt import json # 형태소 분석기 초기화 okt = Okt() # 불용어 목록 stopwords = set(['스마트', '건설', '건설업', '사고', '사망', '처벌', '기술', '조선업', '조선', '선박', '이슈', '기업', '산업', '재해', '중대.. 2023. 12. 11.
뉴스 클리핑 코드 구현 고려해야할 사항1. 날짜 sort=1로 해서 최신순으로 정렬 후에 아닌 날짜가 나오면 break; 2. 날짜 양식이 yyyy. mm. dd 아닌경우에? --> 1시간 전, 2일 전, 3주 전 전부 처리해야함 --> Url에 사용자가 날짜 설정할 수 있도록 재구현 3. 중복된 기사의 경우 --> 답없음. 크롤링 후에 사용자가 선택해야하는 상황 중간에 네이버에서 IP 차단시킴 ㅠㅠ봇으로 인식하고 차단 --> 해결 1. IP변경 2. User-agent 설정해주기 3. request.Session() 세션 켜두기 구현코드# -*- coding: utf-8 -*- import requests import time import random from bs4 import BeautifulSoup from dateti.. 2023. 12. 9.
728x90