분류 전체보기 101

[2021 WOW Challenge] CLV(Customer Lifetime Value) Matrix 그리기

2021 WOW Challenge - WEEK 2 : Can you build a Customer Lifetime Value Matrix? https://workout-wednesday.com/2021w02tab/ 2021 Week 2 | Tableau : Can you build a Customer Lifetime Value Matrix? – Workout Wednesday This year we’ve made a commitment to start with the basics and build, so this challenge is designed to do just that. This week, you’ll be constructing a Customer Lifetime Value Matrix (C..

[Tableau] 방탄소년단 앨범소개 대시보드 만들기

대시보드 소개 : 방탄소년단의 역대 타이틀 곡이 수록된 앨범을 소개하고, 타이틀 곡의 흥행 정도를 1) 뮤직비디오 조회수, 2) 좋아요 수, 3) 댓글 수 순위를 통해 확인해본다. 또한 1집부터 4집까지의 정규앨범 속에 담긴 방탄소년단의 메세지를 워드클라우드를 통해 알아본다. bts album 대시보드 | Tableau Public bts album 대시보드 타이틀곡 뮤비, 가사에 대한 대시보드 public.tableau.com 1. 데이터 셋 수집 방탄소년단 앨범 별 뮤직비디오 & 가사 데이터 크롤링 방탄소년단 앨범 속 타이틀 곡 (20곡)에 대한 뮤직비디오 조회수, 좋아요 수, 댓글 수 (210503 기준) 방탄소년단 정규 앨범 1집~4집 수록곡 가사 직접 크롤링 !! (데이터 셋 필요하신 분들은 댓..

[코드 분석] Bag of Words for IMDB movie review

Kaggle : Bag of Words Meets Bags of Popcorn 커널 필사 대회 소개 링크 : https://www.kaggle.com/c/word2vec-nlp-tutorial 영화리뷰를 읽고 그 리뷰가 영화를 추천하고 있는지 아닌지를 예측 평가하는 기준은 ROC커브 데이터 파일 labeledTraindata.csv - id/sentiment/review 3개의 칼럼- Id는 글쓴이, sentiment는 1이면 긍정, 0이면 부정적인 리뷰를 뜻하고 review는 직접 쓴 리뷰 testData.csv - sentiment가 빠진 2개의 열 [Reference] 캐글 : https://www.kaggle.com/c/word2vec-nlp-tutorial 깃허브 : https://github...

[코드 분석] Time Series Regression - Predict Future Sales 커널 필사

Regression : time-series regression 시계열 작성자 : 14기 김유민 Kaggle : Predict Future Sales 커널 필사 대회 소개 링크 : https://www.kaggle.com/c/competitive-data-science-predict-future-sales 비즈니스 소프트웨어 기업 1c company의 일별 판매 내역 데이터가 제공됨 다음 달 해당 스토어에서 판매되는 제품량 예측 상점 및 제품 목록은 매월 약간씩 변경되며 이러한 상황을 처리할 수 있는 강력한 모델을 만들자. 데이터 파일 sales_train.csv - 2013년 1월부터 2015년 10월까지의 일일 과거 데이터. train set test.csv - 상점과 제품의 2015년 11월 판매량..

프로그래머스 Lv.0 [두 수의 합~배열 두 배 만들기]

1) 두 수의 합 풀이 def solution(num1, num2): answer = num1 + num2 return answer 설명 설명할 것도 없군 2) 두 수의 차 풀이 def solution(num1, num2): answer = num1 - num2 return answer 설명 쉽군 3) 두 수의 곱 풀이 def solution(num1, num2): answer = num1*num2 return answer 설명 쉬워 4) 몫 구하기 풀이 def solution(num1, num2): answer = num1*num2 return answer 설명 몫 구하는 방법은 1. / 슬래시 1개를 사용해서 소숫값이 나오는 방법 2. // 슬래시 2개 사용해서 정수값만 바로 나오게 하는 방법 나머지..

Algorithm/코딩 2022.11.24

TF-IDF

TF-IDF는 앞서 다루었던 DTM 행렬에서 행렬 내의 각 단어에 대한 중요도를 가중치로 삼아주는 기법이다. 따라서 TF-IDF는 주로 문서의 유사도를 구해서 추천시스템을 만들거나, 검색 결과 중요도를 보여줘서 검색 시스템을 만들거나, 특정 문서에서 키워드의 중요도 키워드 추출을 하는데 쓰이거나 등 되게 많이 사용되고 있다. TF-IDF 자세히 살펴보자면요, TF-IDF는 말그대로 TF랑 IDF랑 곱한 값을 의미한다. 먼저 TF를 보시면, TF란 terim frequency이다. 이는 특정 문서 d개에서 특정 단어 w의 등장 횟수, 즉 각 문서에서 단어의 등장 빈도를 말한다. 그리고 IDF는 DF, document frequency의 역수에 로그를 취한 형태인데, DF는 특정 단어W가 문서 안에서 몇 번..

N-gram 언어 모델

N-gram은 단어 앞에 놓은 단어구들을 모두 사용하는게 아니라, 앞 단어 중에 임의의 개수만 포함해서 카운트해서 근사시키는 방법이다. 이렇게 되면, 통계적 언어 모델에서 일어났던 문제( = 다시 설명하자면, 확률을 계산하고 싶은 문장이 길어질수록 갖고 있는 훈련문장에서 그 문장이 존재하지 않을 가능성이 높아짐)를 해결할 수 있고, 앞 단어들을 적게 사용해서 최대한 근사할 수 있을 정도로 적게 사용한다. 그래서 이때 임의의 개수를 정하기 위한 기준으로 사용하는 것이 n-gram이고, n-gram은 n개의 연속적인 단어 나열, 그래서 n개의 단위로 끊어서 하나의 토큰으로 간주한다. 종류로는 unigram, bigram,trigram, 4-gram등 이고, 최대로 5개까지 사용하는게 보편이라고 한다. 예를 ..

언어 모델 - 통계 기반 언어모델

언어 모델 언어모델이라는 것은, 짧게 요약해서 말하자면, 문장 즉 단어의 시퀀스를 예측하는 모델이다. 그래서 언어모델은 자연어 생성에 기반이 되는데, 기본적으로 자연어 생성과 관련된 건 모두 언어모델과 관련된다고 보면 된다. 음석 인식, 기계 번역, 검색어 자동 완성 모두 언어모델을 사용하고 있다. 언어 모델을 만드는 방법은 크게 통계를 이용한 방법과 인공 신경망을 이용한 방법으로 구분할 수 있다. 최근 자연어 처리에서 언어 모델에 대한 이야기를 빼놓을 수 없는데, 최근 핫한 딥러닝 자연어 처리의 기술인 GPT나 BERT가 전부 언어 모델의 개념을 사용해서 만들어졌다. 통계 기반 언어모델 여기 예시를 하나 보시면, the children play -> 빈칸이 있다. 여기서, 이 앞에 문장이 주어졌을 때 ..

자연어 처리 - 통계 기반 기법

자연어처리를 배우기 위해서는 자연어, 그리고 단어들이 어떻게 문장 안에서 기능을 하고 맥락을 구성하고 있는지 그 바탕에 집중을 해야한다. 이때 단어의 의미를 파악하는 방법으로 1) 통계 기반 기법이 있고, 2) 추론 기반 기법이 있는데 해당 포스팅에선 통계 기반 기법을 다뤄보도록 하겠다. (아래의 내용은 밑바닥부터 시작하는 딥러닝2 의 ch02. 자연어와 단어의 분산표현을 정리한 것이다) 통계 기반 기법 통계 기반 방법은 특정 단어에 주목했을 때, 그 주변에서 어떤 단어가 몇 번이나 등장하는지를 세어주는 방법이다. 이때 컴퓨터가 자연어를 처리할 수 있도록, 다시 말해서 단어를 숫자로 바꿔줘야 하므로, 우리는 단어를 3차원의 벡터로 표현해야 하죠. 그래서 우리 이것을 '단어의 분산 표현'이라고 한다. 단어..

자연어처리 입문

자연어는 우리가 일상생활에서 사용하는 언어들이라고 정의내리고 있다. 그리고 자연어’처리’란 자연어의 의미를 분석해 컴퓨터로 다양한 문제를 해결하는 것이라고 정의가 내려지고 있다. 이때 어떤 문제를 해결하고 있냐?라고 물으면 자연어처리의 응용분야를 같이 살펴보면 된다. 자연어 처리 테스크는 이것보다 훨씬 더 많지만 간단히만 살펴보자면, 1) 텍스트 분류, 2) 감성분석 ,3) 내용요약, 4) 기계번역, 5) 질의응답 등이 있다. 먼저 텍스트분류는 특정 문장이나 문서에서 어떠한 카테고리로 분류하는 문제를 다룬다. 감성분석은 텍스트에서 어떤 주제에 대한 주관적인 인상, 감정, 개인의 의견을 추출하는 문제를 다룬다. 내용 요약은 문서에서 중요하다고 생각되는 문장을 요약하는 방법이나, 요약문을 새롭게 생성하는 방..