본문 바로가기

Kaggle 필사 & 리뷰/NLP

(4)
[NLP] Kaggle 필사 커리큘럼(진행중) 1. Sentiment Analysis on Movie Revies - 22.09.04 2. Natural Language Processing with Disaster Tweets - (1) - 22.09.11 3. Natural Language Processing with Disaster Tweets - (2)- 22.09.13 4. Home Credit Default Risk - 22.10.03 5. Spooky Author Identification - 22.10.08 6. Mercari Price Suggestion Challenge - 22.10.17 7. Toxic Comment Classification Challenge - 22.10.21
your first NLP competition submission 본 게시물은 캐글 노트북을 바탕으로 작성되었습니다. 노트북을 보며 필사하면서 간단한 번역, 코드 리뷰를 작성했습니다. Text classification step by step 자연어 처리(NLP)는 컴퓨터 과학, 인공 지능, 정보 공학, 그리고 인간-컴퓨터 상호작용 분야의 하위 분야입니다. 이 분야는 컴퓨터가 어떻게 엄청난 양의 자연어 데이터를 처리하고 분석하는지에 초점을 맞추고 있습니다. 언어를 이해하고 읽는 과정은 언뜻 보기에는 쉬워 보이지만 생각보다 더 복잡합니다. 목표 이번 커널의 목표는 다음과 같습니다. 기본적인 EDA 데이터 정제에 대한 기본 가이드 특징 분석과 추출 모델링과 평가지표 결과 제출 목차 Introduction 데이터 소개 Load and Check Data 라이브러리 불러오기 ..
Getting started with NLP - A general Intro 본 게시물은 캐글 노트북을 바탕으로 작성되었습니다. 노트북을 보며 필사하면서 간단한 번역, 코드 리뷰를 작성했습니다. 이 노트북은 제가 쓴 Getting started with NLP Notebooks 시리즈의 첫 시작입니다. 이 노트북은 현재의 대회와 관련된 NLP의 개념을 설명합니다. NLP는 인간의 언어와 컴퓨터 사이의 상호 작용에 초점을 맞춘 연구 분야입니다. NLP는 컴퓨터 과학, 인공지능, 그리고 컴퓨터 언어학의 교점입니다. NLP는 컴퓨터가 똑똑하고 유용한 방식으로 인간의 언어로부터 의미를 이끌어내고, 이해하고, 분석하게 하는 방법입니다. 여기선 크게 두개의 부분으로 나뉩니다. Part 1 : Getting started with NLP : A general Introduction Part ..
End-to-End NLP(EDA & ML) with Sentiment Analysis 본 게시물은 캐글 노트북을 바탕으로 작성되었습니다. 노트북을 보며 필사하면서 간단한 번역, 코드 리뷰를 작성했습니다. 이 노트북에서 우리는 bag of words와 tf-idf같은 문자 인코딩 기술이 어떻게 동작하는지 살펴보겠습니다. 이번 과제는 문자의 감성분석입니다. 우리가 사용할 데이터는 감성 정도(?)가 0,1,2,3,4로 라벨링 되어있는 영화 리뷰데이터 입니다. 0은 negative(부정), 1은 somehow negative(약간 부정), 2는 neutral(보통), 3은 somehow positive(약간 긍정), 4는 positive(긍정)으로 이루어져 있습니다. 먼저 EDA를 진행하고 머신러닝 모델링을 해보겠습니다. 필요한 라이브러리 불러오기 import pandas as pd import..