전체 글 102

[2021 WOW Challenge] CLV(Customer Lifetime Value) Matrix 그리기

2021 WOW Challenge - WEEK 2 : Can you build a Customer Lifetime Value Matrix? https://workout-wednesday.com/2021w02tab/ 2021 Week 2 | Tableau : Can you build a Customer Lifetime Value Matrix? – Workout Wednesday This year we’ve made a commitment to start with the basics and build, so this challenge is designed to do just that. This week, you’ll be constructing a Customer Lifetime Value Matrix (C..

[Tableau] 방탄소년단 앨범소개 대시보드 만들기

대시보드 소개 : 방탄소년단의 역대 타이틀 곡이 수록된 앨범을 소개하고, 타이틀 곡의 흥행 정도를 1) 뮤직비디오 조회수, 2) 좋아요 수, 3) 댓글 수 순위를 통해 확인해본다. 또한 1집부터 4집까지의 정규앨범 속에 담긴 방탄소년단의 메세지를 워드클라우드를 통해 알아본다. bts album 대시보드 | Tableau Public bts album 대시보드 타이틀곡 뮤비, 가사에 대한 대시보드 public.tableau.com 1. 데이터 셋 수집 방탄소년단 앨범 별 뮤직비디오 & 가사 데이터 크롤링 방탄소년단 앨범 속 타이틀 곡 (20곡)에 대한 뮤직비디오 조회수, 좋아요 수, 댓글 수 (210503 기준) 방탄소년단 정규 앨범 1집~4집 수록곡 가사 직접 크롤링 !! (데이터 셋 필요하신 분들은 댓..

[코드 분석] Bag of Words for IMDB movie review

Kaggle : Bag of Words Meets Bags of Popcorn 커널 필사 대회 소개 링크 : https://www.kaggle.com/c/word2vec-nlp-tutorial 영화리뷰를 읽고 그 리뷰가 영화를 추천하고 있는지 아닌지를 예측 평가하는 기준은 ROC커브 데이터 파일 labeledTraindata.csv - id/sentiment/review 3개의 칼럼- Id는 글쓴이, sentiment는 1이면 긍정, 0이면 부정적인 리뷰를 뜻하고 review는 직접 쓴 리뷰 testData.csv - sentiment가 빠진 2개의 열 [Reference] 캐글 : https://www.kaggle.com/c/word2vec-nlp-tutorial 깃허브 : https://github...

[코드 분석] Time Series Regression - Predict Future Sales 커널 필사

Regression : time-series regression 시계열 작성자 : 14기 김유민 Kaggle : Predict Future Sales 커널 필사 대회 소개 링크 : https://www.kaggle.com/c/competitive-data-science-predict-future-sales 비즈니스 소프트웨어 기업 1c company의 일별 판매 내역 데이터가 제공됨 다음 달 해당 스토어에서 판매되는 제품량 예측 상점 및 제품 목록은 매월 약간씩 변경되며 이러한 상황을 처리할 수 있는 강력한 모델을 만들자. 데이터 파일 sales_train.csv - 2013년 1월부터 2015년 10월까지의 일일 과거 데이터. train set test.csv - 상점과 제품의 2015년 11월 판매량..

프로그래머스 Lv.0 [두 수의 합~배열 두 배 만들기]

1) 두 수의 합 풀이 def solution(num1, num2): answer = num1 + num2 return answer 설명 설명할 것도 없군 2) 두 수의 차 풀이 def solution(num1, num2): answer = num1 - num2 return answer 설명 쉽군 3) 두 수의 곱 풀이 def solution(num1, num2): answer = num1*num2 return answer 설명 쉬워 4) 몫 구하기 풀이 def solution(num1, num2): answer = num1*num2 return answer 설명 몫 구하는 방법은 1. / 슬래시 1개를 사용해서 소숫값이 나오는 방법 2. // 슬래시 2개 사용해서 정수값만 바로 나오게 하는 방법 나머지..

Algorithm/코딩 2022.11.24

TF-IDF

TF-IDF는 앞서 다루었던 DTM 행렬에서 행렬 내의 각 단어에 대한 중요도를 가중치로 삼아주는 기법이다. 따라서 TF-IDF는 주로 문서의 유사도를 구해서 추천시스템을 만들거나, 검색 결과 중요도를 보여줘서 검색 시스템을 만들거나, 특정 문서에서 키워드의 중요도 키워드 추출을 하는데 쓰이거나 등 되게 많이 사용되고 있다. TF-IDF 자세히 살펴보자면요, TF-IDF는 말그대로 TF랑 IDF랑 곱한 값을 의미한다. 먼저 TF를 보시면, TF란 terim frequency이다. 이는 특정 문서 d개에서 특정 단어 w의 등장 횟수, 즉 각 문서에서 단어의 등장 빈도를 말한다. 그리고 IDF는 DF, document frequency의 역수에 로그를 취한 형태인데, DF는 특정 단어W가 문서 안에서 몇 번..

N-gram 언어 모델

N-gram은 단어 앞에 놓은 단어구들을 모두 사용하는게 아니라, 앞 단어 중에 임의의 개수만 포함해서 카운트해서 근사시키는 방법이다. 이렇게 되면, 통계적 언어 모델에서 일어났던 문제( = 다시 설명하자면, 확률을 계산하고 싶은 문장이 길어질수록 갖고 있는 훈련문장에서 그 문장이 존재하지 않을 가능성이 높아짐)를 해결할 수 있고, 앞 단어들을 적게 사용해서 최대한 근사할 수 있을 정도로 적게 사용한다. 그래서 이때 임의의 개수를 정하기 위한 기준으로 사용하는 것이 n-gram이고, n-gram은 n개의 연속적인 단어 나열, 그래서 n개의 단위로 끊어서 하나의 토큰으로 간주한다. 종류로는 unigram, bigram,trigram, 4-gram등 이고, 최대로 5개까지 사용하는게 보편이라고 한다. 예를 ..

언어 모델 - 통계 기반 언어모델

언어 모델 언어모델이라는 것은, 짧게 요약해서 말하자면, 문장 즉 단어의 시퀀스를 예측하는 모델이다. 그래서 언어모델은 자연어 생성에 기반이 되는데, 기본적으로 자연어 생성과 관련된 건 모두 언어모델과 관련된다고 보면 된다. 음석 인식, 기계 번역, 검색어 자동 완성 모두 언어모델을 사용하고 있다. 언어 모델을 만드는 방법은 크게 통계를 이용한 방법과 인공 신경망을 이용한 방법으로 구분할 수 있다. 최근 자연어 처리에서 언어 모델에 대한 이야기를 빼놓을 수 없는데, 최근 핫한 딥러닝 자연어 처리의 기술인 GPT나 BERT가 전부 언어 모델의 개념을 사용해서 만들어졌다. 통계 기반 언어모델 여기 예시를 하나 보시면, the children play -> 빈칸이 있다. 여기서, 이 앞에 문장이 주어졌을 때 ..

자연어 처리 - 통계 기반 기법

자연어처리를 배우기 위해서는 자연어, 그리고 단어들이 어떻게 문장 안에서 기능을 하고 맥락을 구성하고 있는지 그 바탕에 집중을 해야한다. 이때 단어의 의미를 파악하는 방법으로 1) 통계 기반 기법이 있고, 2) 추론 기반 기법이 있는데 해당 포스팅에선 통계 기반 기법을 다뤄보도록 하겠다. (아래의 내용은 밑바닥부터 시작하는 딥러닝2 의 ch02. 자연어와 단어의 분산표현을 정리한 것이다) 통계 기반 기법 통계 기반 방법은 특정 단어에 주목했을 때, 그 주변에서 어떤 단어가 몇 번이나 등장하는지를 세어주는 방법이다. 이때 컴퓨터가 자연어를 처리할 수 있도록, 다시 말해서 단어를 숫자로 바꿔줘야 하므로, 우리는 단어를 3차원의 벡터로 표현해야 하죠. 그래서 우리 이것을 '단어의 분산 표현'이라고 한다. 단어..