목록Project/core (7)
99.10.11

추출 요약이라는 task를 수행하기 위하여 구글의 BERT 모델을 fine-tuning 하기 위해 다음과 같은 연구를 수행하였습니다. BERT vs GPT -> 버트는 fine tunning을 하기 위해 만들어진 반면 GPT는 fine tunning이 필요 없도록 만들어짐(대신 모델크기 大) -> 선행학습된 bert를 찾아서 다운받은 뒤 우리 프로젝트의 "강의요약" 이라는 task에 맞게 fine tunning 과정을 수행 모델 Train(Fine-tuning) 간략한 흐름 1. 데이터셋 불러오기 2. 데이터 정제/정규화 3. 데이터 토큰화 (Kobert 토크나이저) 4. 데이터 패딩 및 attention_mask(패딩이 아니면 1, 패딩이면 0, 0인 부분은 어텐션 수행이 안되어 속도 향상) 5. tr..

미친 오류의 향연... 그대로 clone 해온건데 도대체 왜 빨간줄이 뜨는지 ㅎ 아마도 이거 만든 사람은 숫자가 없는 본문을 text로 쓴 것 같다. 근데 나는 21장짜리 cs231n 강의 대본을 넣었더니 그 안에 숫자가 나왔었나부당. sorted 함수에서 key = len 을 쓰면 리스트 각 요소들의 길이 순으로 정렬을 해주는데 요소들 중 자료형이 str이 아닌 것들이 있고 (예를 들면 int), 걔네의 길이를 정의할 수 없어서 오류가 난 것 같다. 리스트 각 요소들의 자료형 일괄적으로 바꿔주는 코드 삽입
1. 해당 문장을 참인 명제로 만들건지 거짓인 명제로 만들건지 -> random으로.. 1-1) if 참이 될 운명 : 바로 문제 형태로 가공 by create_quiz 함수..? 리턴값은 문제 + 답 (+영상에서 해당 문장이 등장한 위치 for 해설..? ex. 40:02 ) 1-2) else 거짓이 될 운명 : 거짓 문장으로 가공한 다음 create_quiz 함수로 보내기.. 2. 텍스트랭크 사용시 ✅ 가중치가 높은 문장 뿐 아니라 keyword(단어) 추출 가능 ✅ keyword를 리스트에 저장/ random으로 인덱스 임의로 뽑아서 / 문장 내에 있는 키워드와 리스트에서 랜덤으로 복사해온 키워드가 일치하지 않으면 swap ▶ 거짓명제 생성 * find() 로 비교 ✅ 서술어(구)에서 부정 / 긍정..

BERT vs GPT -> 버트는 fine tunning을 하기 위해 만들어진 반면 GPT는 fine tunning이 필요 없도록 만들어짐(대신 모델크기 大) -> 선행학습된 bert를 찾아서 다운받은 뒤 우리 프로젝트의 "강의요약" 이라는 task에 맞게 fine tunning 과정을 수행 모델 Train(Fine-tuning) 간략한 흐름 1. 데이터셋 불러오기 2. 데이터 정제/정규화 3. 데이터 토큰화 (Kobert 토크나이저) 4. 데이터 패딩 및 attention_mask(패딩이 아니면 1, 패딩이면 0, 0인 부분은 어텐션 수행이 안되어 속도 향상) 5. train, validation, test 나누기 6. train, validation, test를 torch tensor로 변환 7. T..
기계학습 - clustering 보충강의 1) 1학기 textrank 추출요약 1. We have to measure this distance, with this one, with this one, with this one, with this one, with this one, with this one. 2. Right? 3. Okay, and for second step you change the cluster Center to the average of its assigned point. 4. In green, you will calculate distance with this point and you calculate in this point, right? 5. Distance from A to B..

1. Sampling rate Setting 자연 신호(continuous) → 디지털 신호(discrete)로 변환할 때 발생하는 정보 손실을 최소화 디지털화한 신호를 바탕으로 실제 자연 신호를 잘 추론할 수 있어야 가장 이상적인 방법: 신호의 값을 추출하는 sampling 기간을 짧게 하여 많은 양의 sample을 저장하는 것 (sampling rate를 높임) ※ sampling rate : sample 수 / 1초 but sampling rate를 높이면 자연 신호의 정보는 많이 유지되지만 저장 용량이 커짐 즉, 정보 보존과 저장 용량 사이의 trade off 문제 발생 나이퀴스트 이론(Nyquist Theory) -> 자연 음성 신호를 디지털화할 때 어느 정도의 sampling rate를 취해야..

기술블로그 1편의 테스트는 TextRank를 이용한 추출요약에만 초첨을 맞추어 진행되었습니다. 그래서 영상에서 추출된 text가 아닌, 본래 줄글로 쓰여진 article을 input으로 사용하였는데요, 기말 발표를 준비하면서 실제 교수님의 강의영상으로 테스트를 진행한 결과 또하나의.. 문제점이 발견되었습니다. 바로 "강의영상" 이라는 매체의 특성상 정제되지 않은 추임새들이 모두 text로 변환되고, 이것들 또한 피요약대상의 일부로 인식된다는 점이었습니다. 가령.. 위 사진에서는 Okay와 So 라는 단어가 많이 감지된 것으로 보이네요.. 최종적으로 추출된 요약문장들을 볼까요? 상위 16개의 Summay문장을 추출하였는데 그중 밑줄 친 11개의 문장이 So, Okay를 포함하고 있었습니다. ㅠㅠ 그래서 다..