[GitHub] 하나의 PR 메세지에 PR 링크를 올려 잘게 쪼개기
·
🎸 기타/git
학습 목표현재 Upstream의 레포지토리를 Fork해서 작업하고 있다.그리고 PR은 하루에 단 한 번만 보내야 하는 상황이라, 잘게 쪼개서 PR 보내기를 할 수가 없다.Fork한 내 개인 브랜치들 간에 잘게 쪼갠 PR을 하나의 PR 메세지에 올려서 리뷰가 용이하게 해봤다.본 내용은 그 경험을 공유하는 글이다.학습 내용각각의 PR 링크는 모두 Kyxxn/swift-p2-canvas 레포지토리의 브랜치들 간에 PR 작업한 것들이다.Upstream에 1일 1PR을 위한 메인 브랜치를 만든다. ex) Day10Day10을 Base로 분기해서 Feature 혹은 Refactor 단위로 작업 브랜치를 만든다.작업 브랜치 기능 구현이 완료되면 Day10에 Merge 시킨다.1~3번 작업은 모두 내 개인 레포지토리에..
[24년 8월 우아한테크세미나] 생성AI로 '우리'가 더 똑똑해지기
·
🎸 기타/세미나
https://www.youtube.com/live/v2icwh-nyl4?si=f9Dvwbjcgg0m6maQ오늘 저녁 무면서 이 세미나를 봤는데,요즘 AI 프롬포트에 관심이 많던 나에게 좋은 주제같아서 정리해보았다. (참고: 아래 내용은 영상에서 말하는 '3가지 스텝'이 아닌, 제 주관으로 유용해보이는 것만 적었습니다)1. 프롬포팅 먼저 하기 (36:38)- GPT를 전문가로 빙의 시켜줌 (실존하는 전문가로 해도 됨)- 전문가로 만들었다면, 내가 요청할 작업을 어떻게 해결해 나가는지 '과정'을 물어보기2. 지피티는 우리에게 질문을 안 하려 함 (41:45)- (발표자 추측) GPT가 질문을 하면 API 비용 증가 때문이다- 우리가 원하는 것에 대해 GPT가 더 잘 답변할 수 있게, 우리가 원하는 바를 G..
[Git] Git의 원리 이해하기 - 내부 동작과 .git 파일 구조 분석
·
🎸 기타/git
Git 원리를 공부하는 이유기억이 오래 감→ 원리없이 공부하면 금방 까먹음공부할 때 효율이 올라감시간을 아낄 수도, 넓은 시야로 다른 궁금증을 가질 수도 있음Git의 사용자가 아닌, Git을 만든 입장이 돼 봄다른 걸 만들 때, Git 만든 이론을 참고할 수도 있음실습도구: Gistory내 .git 디렉토리의 변화를 GUI로 쉽게 보여줌localhost:8805로 가서 보면 위와같이 보임.git 디렉토리 내부 구조의 파일들을 볼 수 있어서 보기 쉬움그럼 .git 디렉토리에는 뭐뭐 있고, 어떤 역할을 할까?.Git 디렉토리 내부 구조index파일의 이름을 갖고 있음SHA-1 키값을 통해 변화된 파일 이름을 가리킴파일의 실제 내용은 objects 디렉토리 내에 있음위 밑줄 친 부분은 ‘2444.c’라는 파일..
THE MONEY BOOK | 잘 살아갈 우리를 위한 금융생활 안내서
·
🎸 기타/책을 읽고
항상 노션 작성 -> 티스토리 복붙이라 마크다운으로 매번 작성했는데티스토리에서 기본모드로 작성하는 건 처음이다. 한동안 책을 많이 볼 예정인데,첫 번째 책은 'THE MONEY BOOK - toss'이다.읽게 된 계기인스타를 하다 스레드에 'UX가 신기한 책'이라는 제목으로이 책에 대한 리뷰를 하는 글이 올라왔다. 그렇게 이 책의 존재를 알게되고,목차를 찾아봤는데 '자산관리'가 눈에 들어왔다.전문하사 전역 후, 주식으로만 돈 관리하던 나에게요새 정기예금, 적금 등 고민이 많았는데 읽어보고 싶어졌다. 또 다른 이유로는 책이 MZ하니까, toss가 적었으니까UX 하나는 기깔난다. 책을 읽고100가지의 질문을 주고, 각 질문에 답을 하는 형식으로 책이 진행된다.그리고 금융 용어들에 대한 설명이 있다.첫 페이지..
[RL] 가치 기반 에이전트
·
🎸 기타/Reinforcement Learning
에이전트 3가지 종류액션을 정하는 기준에 따라 에이전트 3종류를 구분할 수 있음1. 가치 기반 에이전트: 가치함수에 근거하여 액션을 선택 모델 프리 상황에서는 상태 가치함수만으로 액션을 선택할 수 없음. 액션 가치함수를 근거하여 액션을 선택2. 정책 기반 에이전트: 정책함수 π(a∣s)를 보고 액션을 선택 -> 다음 챕터에서 다룸3. 액터-크리틱: 가치함수 + 정책함수 모두 사용, Actor는 행동하는 주체, Critic은 비평가, (즉 상태가치 + 액션가치) ..
[RL] Deep RL 첫 걸음
·
🎸 기타/Reinforcement Learning
7.1 함수를 활용한 근사우리가 해온 것들은 데이터 개수가 적은 간단한 경우였다.따라서 테이블 기반 방법론으로 동작해도 문제가 없었다.그러나, 바둑과 체스 등과 같이상태의 경우의 수가 많은 문제에서 테이블 기반 방법론은 적용하기 어렵다.바둑이나 체스처럼 이산적(discrete)인 형식이 아닌 속도와 같이 연속적인 값을 가질 수 있음.함수의 등장테이블 기반 방법론을 사용하지 않고,위 사진의 함수에 저장실제 가치의 근사함수데이터가 많은 경우위 그림과 같이 MSE를 최소로 하는 a, b를 결정함수의 복잡도에 따른 차이1차함수의 경우 데이터 양이 많아지면 데이터를 표현하기에 어려움이 있음1차 함수가 아닌 다항 함수를 사용할 수 있음위 그림에서 고차함수로 갈수록 MSE는 감소하지만 데이터에 노이즈가 석여 있음노이..
[RL] MDP를 모를 때 최적의 정책 찾기
·
🎸 기타/Reinforcement Learning
MDP를 모를 때 최적의 정책찾기몬테카를로 컨트롤정책 이터레이션을 그대로 사용할 수 없는 이유정책 이터레이션 리뷰 정책 이터레이션은 정책 평가와 정책 개선 두 단계로 구성 정책 평가: 고정된 정책 𝜋에 대해 각 상태의 가치를 구함 = 반복적 정책 평가 = 밸류 평가 정책 개선: 정책 평가의 결과에 따라 새로운 정책 𝜋'를 생성 = 그리디 정책 생성 반복적 정책 평가와 정책 개선을 진행하면 정책과 가치가 변하지 않는 단계에 도달하게 됨 -> 최적 정책과 최적 가치반복적인 정책 평가를 사용할 수 없음모델 프리 상황에서는 보상함수 r과 전이확률 P를 모르기 때문에위 벨만 기대 방정식 2단계를 사용할 수 없음 정책 개선 단계에서 그리디 정책을 만들 수 없음 지난 주를 통해 각 상태의 가치를 알..
[RL] MDP를 모를 때 밸류 평가하기
·
🎸 기타/Reinforcement Learning
몬테카를로 학습 (MC)정확한 수학 수식에 의해 계산/측정 하는 것이 아닌,확률적인 방법에 의해 값을 통계적으로 계산하는 것보상 함수와 전이 확률을 알 때,DP를 사용하여 전체 상태를 한 번씩 모두 실행하며 각 상태의 가치를 업데이트 했음몬테카를로 학습에서는 하나의 에피소드가 끝날 때까지 실행하면서경험을 모으고, 그 경험으로부터 가치 함수를 계산함정확한 결과를 얻기보다는 근사적인 결과를 얻을 경우에 사용몬테카를로 학습의 전제조건단 하나의 전제조건이 필요한데,에이전트가 동작하는 환경에 시작과 끝이 있어야 한다.리니지, 메이플스토리처럼 MMORPG의 경우 엔딩이 없이 쭉 이어지는 게임이지만,디아블로와 같은 게임은 에피소드 단위로 게임이 진행되어 에피소드마다 엔딩이 있다.-> 디아블로는 MC 적용 가능몬테카를..
[RL] MDP를 알 때 플래닝
·
🎸 기타/Reinforcement Learning
MDP를 알 때 플래닝[RL] MDP를 알 때의 플래닝바닥부터 배우는 강화 학습 | 04. MDP를 알 때의 플래닝그리드 월드 MDP 상황을 예로정책 𝜋가 주어졌을 때, 각 상태의 밸류를 평가하는 Prediction과최적의 정책 함수를 찾는 Control 문제 푸는 방법을 배운다.플래닝 = MDP에 대한 모든 정보를 알 때, 정책 개선 과정본 목차의 내용을 적용하려면- 작은 문제 (상태 집합 S, 액션 집합 A의 크기가 작은 경우)- MDP를 알 때두 가지의 조건을 만족하는 상황일 때만 가능작은 문제이므로 *(테이블 기반 방법론)에 기반함*테이블 기반 방법론: 모든 상태 s 혹은 상태와 액션의 페어 (s,a)에 대한테이블을 만들어 값을 기록해놓고, 그 값을 조금씩 업데이트하는 방식밸류 평가하기 - 반복..
[RL] 벨만 방정식
·
🎸 기타/Reinforcement Learning
Bellman Equation(벨만 방정식)이란?반환값과 상태가치함수 리뷰반환값- 타입스텝 t에서 계산한 누적 보상의 합계- 에피소드 하나에 대한 가치를 측정상태 가치 함수- 환경 전체에 대한 가치를 측정- 상태 전이 확률을 같이 고려함MRP 벨만 방정식강화학습에서 프로그래밍으로 가치를 구하기 위해 '벨만 방정식'을 많이 사용수학자 리처드 어니스트 벨만의 이름을 땄음일반적으로 기댓값을 시그마 기호를 사용한 수열의 합으로 표현현재 상태의 가치함수와 다음 상태의 가치함수 관계로 나타냄수식 1 = 개념적인 상태 가치 함수수식 2 = 상수는 기댓값에서 의미 X, 정리함수식 3 = 기댓값을 수열의 합과 다음 상태에서의 상태 가치 함수로 나타낸 것MDP 벨만 기대 방정식0단계벨만 기대 방정식: 현재 상태의 가치 함..