반응형 분류 전체보기164 [Python] APScheduler 를 이용한 파이썬 스케줄링 스크립트 ML 파이프라인 자동화를 하면서 특정 시간에 주기적으로 돌려야하는 스케쥴러가 필요했다. 파이썬 코드로 실행을 해야해서 어떤 스케쥴러를 사용할까 찾아보다 APScheduler에 대해 찾아보게 됐다. APScheduler (Advanced Python Scheduler) Python code 를 주기적으로 수행할 수 있게 도와주는 Python Library Schedule Type cron : Cron 표현식으로 Python code 를 수행 interval : 일정 주기로 Python code 를 수행 date : 특정 날짜에 Python code 를 수행 Scheduler 종류 대표적으로 BlockingScheduler : 단일 Job 수행시 BackgroundScheduler : 다수 Job 수행시 A.. 2021. 6. 16. [Python] 유튜브 댓글 크롤러 youtube comment crawl with Selenium, Chrome Driver 유튜브 댓글은 아래로 스크롤을 해야 더 나오기 때문에 html source를 그대로 파싱하기에는 어려움이 따른다. 따라서 chromedriver와 selenium을 이용해서 자동으로 스크롤하고 원하는 만큼 html source를 한번에 긁어다가 파싱 하는 코드이다. https://github.com/Daewooki/WebCrawler Daewooki/WebCrawler Contribute to Daewooki/WebCrawler development by creating an account on GitHub. github.com HTML 삽입 미리보기할 수 없는 소스 2021. 6. 16. [NLP] 자연어처리 HuggingFace 뽀개기 우연히 온라인 커뮤니티에서 허깅페이스 뽀개자 이야기가 나와서 시작하게된 스터디. 스터디원들께 양해를 구하고 하나하나씩 스터디한 것을 공유한다. 일주일에 하루하지만 내 개인 토이 프로젝트까지 갈 것 개인적으로 생각하는 프로젝트는 생성모델 ㅎㅎㅎ 예전부터 해보고싶은 프로젝트인데 업무에 집중하느라 못 했지만 이번에 해볼것이다 추석 끝나고 바로 시작~!!! p.s. 스터디 내용 및 프로젝트 내용은 비공개로 전환하였습니다. HuggingFace 스터디에 관심있으신 분들은 댓글에 메일 남겨주시면 자료 공유드릴게요~ 2021. 6. 16. ADsP 제 21회~27회 주관식 기출문제(24회 제외) ADsP 제 21회~27회 주관식 기출문제 정리입니다. 24회는 코로나 영향으로 시험이 취소되어서 제외된 것입니다~ 26~27회 문제를 유심히 보시는게 좋을 것 같습니다. 모두 합격 기원합니다~! 공감은 큰 도움이 됩니다~! 퍼갈 때는 출처 남겨주세요~ 2021. 6. 16. 제28회 데이터분석 준전문가(ADsP) 시험문제 답안/문제 복원 제 27회 데이터분석 준전문가 시험은 사정이 생겨 보러가지 못했고 28회 보러 다녀왔다 문제 난이도는 중하? 정도 됐던 것 같다 오픈채팅방에서도 여러번 복기 하고 문제 공유를 했었는데 찾으시는 분들께 도움이 되고자 복원한 것을 남긴다 현재 데이터에듀에 복원이 된 것 같으나 빠진 문제도 있고.. 좀 이상하다;; 혹시라도 답안이 틀리거나 하면 댓글 부탁드립니다~ 1과목 순서 문제 답 객1 빅데이터 특성 틀린 것은? 데이터 양이 많을수록 더 많은 분석을 해야한다 객2 데이터 크기 작은 것부터 큰 순서대로 페타 -> 엑사 -> 제타 -> 요타 (페타로 시작하는게 하나였음) 객3 책임원칙의 훼손은? 범행 전 체포 객4 행태분석이 아닌 것은? 연중 정당별 선호도 변화 객5 데이터를 DBMS에 모아 관리하는 것? 데.. 2021. 6. 16. Part2.[2장_데이터 분석 기획]2장. 분석 방법론 - KDD, CRISP-DM 분석 방법론 ▪️KDD 분석 방법론 KDD 분석 방법론에서는 분석 절차만 기억하면 될 것 같다.! 1. 개요 - Knowledge Discovery in Database는1996년 Fayyad가 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스이다. 데이터마이닝, 기계 학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있음 2. KDD분석 절차 크게 5가지 단계로 나뉜다. a. 데이터 선택 b. 데이터 전처리 c. 데이터 변환 d. 데이터 마이닝 e. 데이터 마이닝 결과 평가 2021. 6. 16. Part2.[1장_데이터 분석 기획의 이해] 2절. 분석 방법론 중요한 파트 1. 분석 방법론 개요 가. 개요 - 데이터 분석이 효과적으로 기업 내에 정착하기 위해서는 이를 체계화한 절차와 방법이 정리된 데이터 분석 방법론의 수립이 필수적임 - 프로젝트는 개인의 역량이나 조직의 우연한 성공에 기인해서는 안되고, 일정한 수준의 품질을 갖춘 산출물과 프로젝트의 성공 가능성을 확보하고 제시할 수 있어야함 - 방법론은 상제한 절차(Procedures), 방법(Methods), 도구와 기법(Tools & Techniques), 템플릿과 산출물(Templates & Outputs)로 구성되어 어느정도의 지식만 있으면 활용이 가능해야함 나. 데이터 기반 의사결정의 필요성 - 경험과 감에 따른 의사결정 --> 데이터 기반의 의사결정 - 기업의 합리적 의사결정을 가로막는 장애요소 :.. 2021. 6. 16. Part2.[1장_데이터 분석 기획의 이해] 1절. 분석기획 방향성 도출 Part 2 데이터 분석 기획 여기선 컨설팅 회사나 기업에서 분석 프로젝트를 수행하기 위해 의사 결정자를 설득할 때 꼭 필요한 과정을 학습한다. 데이터를 분석하기 위해 필요한 방법론과 프로세스를 반드시 알아야하고, 분석 마스터 플랜에 대해 이해해야한다. 용어가 생소할 것이기에 용어를 익숙하게 하는것이 가장 중요함! 1절. 분석 기획 방향성 도출 1. 분석기획의 특징 * 분석기획이란? - 실제 분석을 수행하기에 앞서 분석 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업 - 어떤 목표(what)을 달성하기 위해(why) 어떤 데이터로 어떤 방식으로(how) 수행할지 계획하는 것 * 데이터 사이언티스트의 역량 - 데이터 사이언티스트는.. 2021. 6. 16. [2장_데이터의 가치와 미래] 4절. 위기 요인과 통제 방안 # 4절. 위기 요인과 통제 방안 !! 개인적으로 2장에서 가장 중요하고 어려운 내용을 담고 있는 파트라 생각한다. 정확히 숙지해야한다. 1. 빅데이터 시대의 위기 요인 내용 예시 사생활 침해 개인정보가 포함된 데이터로 인해 사생활 침해를 넘어 사회경제적으로 위협이 될 수 있음 책임 원칙 훼손 빅데이터 기본분석과 예측기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 증가함 데이터 오용 빅데이터는 일어난 일에 대한 데이터에 의존하기 때문에 이를 바탕으로 미래를 예측하는 것은 적지 않은 정확도를 가질 수 있지만 항상 맞을 수는 없음 2. 위기 요인에 따른 통제 방안 내용 기대효과 동의에서 책임으로 빅데이터에 의한 사생활침해 문제를 해결하기엔 부족한 측면.. 2021. 6. 16. 이전 1 ··· 14 15 16 17 18 19 다음 반응형