목록딥러닝 (2)
코딩복습장
자 샤논 엔트로피를 검색해보자 일반적으로 엔트로피는 무질서도 또는 불확실성을 가리킨다. 섀넌 엔트로피의 개념은 클로드 섀넌이 자신의 1948년 논문 "수학적 통신 이론"에서 도입하였다.[1] 섀넌 엔트로피는 정보 소스(source)를 무손실 인코딩 또는 압축할 때 가능한 최상의 평균 길이의 절대적 한계치를 제공해준다 출처는 나무위키다. 정말 무슨 소리인지 하나도 모르겠다. 그래서 정리를 시작했다... 샤논은 정보를 bits라는 것으로 표현했는데 이는 0, 1로 표시한다는 뜻이다. 위의 가능한 최상의 평균 길이의 절대적 한계치란 가장 효율적으로 즉 가장 짧은 길이의 bits로 정보를 무손실 인코딩 (압축)한 경우를 말하는 것이다. 예를 들어보자! 내가 교수님께 하트를 보낼 확률을 p(x1)라고 하자 내가 ..
이번에는 lstm을 사용해서 스팸메일을 분류해보려고 한다. 데이터의 정보를 불러오자 dataframe의 shape는 (5572, 5)라는 것을 알 수 있다. 여기서 Unnamed: 2, Unnamed: 3, Unnamed: 4 는 모두 삭제해야될 column들이다. v1의 ham은 스펨메일이 아님 spam은 스팸메일이라는 뜻이다. 우선 lstm에 데이터를 넣기 전에 data를 분류해야 된다. 나는 train_data, val_data, test_data(훈련 데이터, 검증 데이터, 테스트 데이터) 이렇게 3가지로 데이터를 나눌 것이다. import pandas as pd import numpy as np import torch from torch.utils.data import Dataset, DataL..