일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 크롤링
- 세션
- android
- 셀레니움
- java
- Python
- 메모장
- 데이터베이스
- MySQL
- 입출력
- n^2 배열 자르기
- js
- javascript
- Programmers
- 개발
- jsp
- 개발자
- 프로그래밍
- 자바스크립트
- 자바
- 코딩
- 이진 변환 반복하기
- 파이썬
- 형태소 분석기
- 모바일
- 파일 저장
- 프로그래머스
- 함수형 인터페이스
- 유튜브
- jdbc
- Today
- Total
목록Python (5)
개인용 복습공간
text를 크롤링하고 konlpy를 이용해 형태소 분석을 해보려고 한다. konlpy(코엔엘파이)는 한국어 정보처리를 위한 파이썬 라이브러리이다. 이것을 이용하여 크롤링해온 text를 분석해보려고 한다. konlpy를 설치하기 전에 자바 JDK설치와 환경변수 설정과 JPype를 설치해줘야 한다. 그리고 Python3.9에서는 작동이 안돼서 3.7에서 작업을 했다. (과정 생략) cmd창에서 pip install konlpy으로 설치가 가능하다. 일단 영상의 url과 제목을 가져올 테이블을 만든다. 유튜버 영국 남자 채널의 영상들을 크롤링해 사용해보려 한다. 채널의 url과 title이 들이었는 path가 같아서 크롤링이 수월하다. 크롤링해온 title리스트를 for문을 이용하여 하나의 기다란 text처럼..
bs4와 셀레니움을 이용한 크롤링을 다뤄보려 한다. pip install bs4와 pip install pandas를 cmd창에서 인스톨해줘야 사용 가능하다. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 from selenium import webdriver from bs4 import BeautifulSoup as bs import pandas as pd from selenium.webdriver.common.keys import Keys import time keyword = '롤' url = 'https://www.youtube.com/results?sear..
text 크롤링을 위해 스크롤바를 내리는 코드를 작성하여 DB에 넣어보려고 한다. 저번에 이용한 테이블을 수정하여 Column을 추가한다. 유튜브에서 롤로 입력했을 때 유튜버의 이름, 채널 url을 가져와보려고 한다. 그리고 간단하게 스크롤바를 내리는 동작을 하는 코드를 작성했다. crawl_data.py 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 import selenium from selenium import webdriver from time i..
크롤링한 text를 pymysql을 이용해 DB에 넣어보려고한다. MySQL Workbench를 이용해 일단 DB와 테이블을 하나 만든다. pip install pymysql을 cmd창에서 설치해주고 import 해준다. dbtest.py 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 import selenium from selenium import webdriver from time import sleep import time import pymysql URL = 'https://www.youtube.com/c/yangdailOfficial/videos' driver = webdriv..
간단하게 유튜브에 text를 크롬 드라이버와 셀레니움을 이용해 가져와보려고 한다. 유튜브 채널에 들어가 우클릭 - 검사를 눌러서 가져올 텍스트를 확인한다. ctrl + shift+ i를 눌러서 할 수 있다. 동영상의 제목, 유튜버, 동영상 업로드 시기, 동영상 길이, 조회수, 동영상 url이 들어있는 text의 요소를 찾는다. XPath를 복사해서 코드에 넣어준다. 셀레니움은 pip install selenium으로 cmd창에서 설치할 수 있다. crawling_one.py 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 import selenium from selenium import webdriver from time import sleep import time ..