본문 바로가기

반응형

practical AI

(10)
[wikidocs transformers] 1. 자연어처리와 transformer의 pipeline() [wikidocs transformers] 1. 자연어처리와 transformer 자연어처리(nlp)란 말그대로 human language와 관련된 모든 것을 이해하는데 중점을 둔 언어학, 기계학습의 분야이다. 이때 자연어처리는 단일 단어를 개별적으로 이해하는 것은 물론 문장의 문맥을 이해하는 것도 목표로 한다. 자연어처리 작업의 종류로는 문장 분류(감성 분석, 스팸판단 등), 단일 문장 내 단어 분류, 텍스트 생성(번역, 요약, 마스킹 단어 완성 등), 텍스트 내 정답 추출 등이 있다. 또한 text에만 국한되는 것이 아닌 오디오 스크립트나 이미지 설명과 같은 음성인식, CV 영역의 문제도 해결할 수 있다. 이러한 자연어처리 작업을 수행하는데 있어 매우 유용한 라이브러리가 바로 HuggingFace의 ..
[TFX 스터디 4주차] 연습 프로젝트 세부사항 결정 [TFX 스터디 4주차] 연습 프로젝트 세부사항 결정 박찬성님의 TFX tutorial을 바탕으로 이를 다른 모델에 적용해보는 연습용 프로젝트를 10월동안 하기로 했다. 레포도 만들었다~ GitHub - hongseoi/TFX_Pipeline: TFX를 활용한 LSTM모델의 Text Data 감성분석 Pipeline 제작 Project TFX를 활용한 LSTM모델의 Text Data 감성분석 Pipeline 제작 Project - GitHub - hongseoi/TFX_Pipeline: TFX를 활용한 LSTM모델의 Text Data 감성분석 Pipeline 제작 Project github.com task는 텍스트 데이터 감성분류, 모델은 LSTM을 하려고 한다. 잘 돌아가기만 하면 되기 때문에 무난한 ..
[TFX 스터디 3주차] 기존 프로젝트 분석 및 목표 [TFX 스터디 3주차] 기존 프로젝트 분석 및 목표 박찬성님의 깃허브 레포를 보고 TFX 프로세스를 파악한 뒤 다른 모델에 적용해보기로 했다. https://github.com/deep-diver/semantic-segmentation-ml-pipeline GitHub - deep-diver/semantic-segmentation-ml-pipeline Contribute to deep-diver/semantic-segmentation-ml-pipeline development by creating an account on GitHub. github.com 코드를 보며 느낀 점 README.md에 설치 관련 안내가 있는데 이걸 보고 main으로 가장 먼저 봐야 할 부분이 local_runner.py라는 ..
NLP Frameworks: Hugging Face 기본 사용법 NLP Frameworks: Hugging Face 세상에는 하루가 갈수록 수많은 NLP 모델들이 쏟아져 나오고 있다. 이러한 모델들을 직접 짜보는 것은 실력 향상에 도움이 되지만, 시간적/자원적으로 매우 힘든 일이다. 그리고 논문과 함께 공개된 리서치 코드를 이용해 모델을 사용할 수는 있지만, 프로젝트마다 코드 스타일이 다르고 서로 다른 딥러닝 프레임워크(텐서플로우 or 파이토치)를 사용하기 때문에 이 점에 있어서도 모델 사용에 어려움이 있다. 이러한 문제점들을 해결해주는 것이 바로 NLP Framework이다. framework란 프로젝트의 뼈대를 이루는 클래스와 인터페이스의 집합으로 이를 이용해 손쉽게 다양한 응용 프로그램을 제작할 수 있다. 대부분의 NLP framework들은 태스크나 데이터셋,..
[TFX 스터디 1주차] TFX 프레임워크를 활용한 머신러닝 워크플로우 개요 [TFX 스터디 1주차] 살아 움직이는 머신러닝 파이프라인 설계 CH1~4 스터디 참여 계기 그동안 머신러닝을 책으로 배웠는데 실전 서비스 등에서 사용되는 머신러닝의 경우 책에서 배운 것과 차이가 있다는 것을 느꼈다. 예를 들어, 하나의 ipynb 파일에 전체적 프로세스를 작성하도록 하게 하는데, 실전에서 모델을 제작할 경우 새로운 데이터가 추가됨에 따라 모델의 재학습이 필요하고 이러한 재학습을 위해서는 기존에 배웠던 내용만으로는 부족함이 있다. 그리고 이번 학기 캡스톤 디자인 과목을 수강하면서 AI 기반 웹서비스를 제작하려고 하는데 현재 지식만으로는 부족함이 있다고 느껴 TFX 스터디에 참여하게 되었다. TFX TFX는 Tensorflow Extended의 약자로, 텐서플로우 기반의 머신러닝 파이프라인..
[chatGPT Prompting] 데이터 구조화하기 [chatGPT Prompting] 데이터 구조화하기 chatGPT를 사용하는 방법 중 하나는 데이터를 테이블로 정리하는 것이다. 예를 들어, 비즈니스 리포트나 뉴스 기사들을 요약해서 스프레드시트나 데이터베이스에 넣는 작업을 chatGPT를 이용해 빠르게 할 수 있다. In a recent business report presentation, the CEO of Zana Corp. highlighted their remarkable growth in the past fiscal year. She shared that the company experienced a 15% increase in revenue, reaching $50 million, with a 12% profit margin ($6 mill..
[chatGPT Prompting] LLM 세팅 [chatGPT Prompting] LLM 세팅 LLM의 결과가 얼마나 랜덤할지는 설정 하이퍼 파라미터의 영향을 받는다. 설정 하이퍼 파라미터는 Temperature, Top p, frequency, presence penalties 등이 있다. chatGPT의 경우 API를 별도로 사용하지 않는 한, 설정 하이퍼파라미터를 수정할 수 없다. Temperature 답변의 랜덤성을 조절하는 설정 하이퍼 파라미터 temperature가 높을수록 예측 불가능하고 창의적인 결과를 낸다. Top p 핵 샘플링 확률의 한계를 설정하고 그 누적 확률을 초과하는 토큰만을 선택한다 선택한 토큰들을 이용해 랜덤한 답변을 생성한다. 예를 들어 top p = 0.9인 경우, 모델은 90%의 확률을 달성하는 가장 가능성 높은 단..
chatGPT(LLM)의 한계점 chatGPT(LLM)의 한계점 1. 답변의 출처를 알 수 없다. 그래서 답변이 틀렸을 수도 있고 맞았을 수도 있다. 탐색증강된 LLM(인터넷 검색이 가능한 LLM)을 이용하면 해당 문제를 해결할 수 있다. 2. 편향 LLM에는 세이프 가드가 있음에도 불구하고 성적, 인종적, 동성애차별적 답변을 할 수 있다. 따라서 고객 대응을 위해, 연구를 위해 LLM을 사용할 경우 주의해야 한다. 3. 환각 LLM이 잘 모르는 것에 대해 질문할 경우 거짓된 답변을 자신있게 대답한다. 4. 수학 LLM은 수학을 못한다. 이 문제는 증강된 LLM을 통해 해결할 수 있다. 5. 프롬프트 해킹 유저가 원하는 답변을 하도록 LLM을 유도할 수 있다. 출처 https://learnprompting.org/ko/docs/basi..

반응형