일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- TensorFlow
- 딥러닝
- tree search
- cp 커맨드
- cp 폴더 복사
- tf-agents
- 파이썬 순열
- 강화학습
- MCTS
- markov decision process
- 오일러프로젝트
- 파이썬으로 순열 구현하기
- 환급기원
- 심층강화학습
- AlphaGo
- 파이썬 순열로구현하기
- 파이썬
- Python
- UCB1
- cp command
- 스페인어학습지
- 스터디미니
- Monte Carlo
- itertools.permutations
- TreePolicy
- Rl policy
- 몬테 카를로 트리 탐색
- 순열
- 알파고
- permutations
- Today
- Total
목록전체 글 (20)
Learn And Earn
최근에 새로운 것들을 배워보고 싶은 마음이 다시 샘솟는 중이다. 스페인어가 그 중 하나이다. 아마도 계속 돌려보는 브레이킹 배드 때문인건가.. 싶기도 하고 잘 모르겠다 😆 간만 보다가는 죽도 밥도 안되는 건 진작 깨우쳤기에 눈 딱 감고 질렀다! 종이 학습지와 디지털 학습지 모두 받는 옵션, 그리고 디지털 학습지만 받는 옵션이 있었는데 내 책상에 걸레짝이 되어있는 많은 논문(이었던 것 😓)들을 보니 역시 나에게는 디지털 학습지만 받는 편이 좋을 것 같았다! 말 그대로 디지털 학습지기 때문에 결제를 누르자마자 곧바로 학습지 파일에 접근할 수 있었다. pdf 파일째로 주어지는 것은 아닌 듯 하고, 스터디미니 어플리케이션에서 회원 정보에 기반하여 접근권한이 주어지는 방식이다. 플렉슬 기반의 뷰 형식이기에 학습지..
이번 포스팅에서는 자주 쓰이는 리눅스 기초 커맨드에 대해서 알아보도록 하겠습니다. 그 중에서도 cp 명령어입니다. cp 명령어는 copy의 준말로, 가장 뭉뚱그려서 말하자면, "어떤 위치에 있는 파일/폴더를 어떤 위치에 복사 + 붙여넣기 하게 해주세요" 입니다. linux command의 중요성 애초에 우리 운영체제라는 것은 메모리를 할당, 관리하는 시스템으로써, 가장 고수준으로 메모리를 생각 하였을 때 로컬 메모리에서는 디렉토리로 관리가 되고, 사용자인 우리가 시각적으로 인식하고 접근할 수 있습니다. 하지만 우리가 명색이 사람인데, 땀 뻘뻘 흘려가며 일일이 손으로 이 디렉토리에서 저 디렉토리로 클릭해가면 시간적으로도 그렇고, 가장 중요한 정확성에 문제가 될 수 있습니다. 그렇기에 우리는 내장된 명령어를..
이번 포스팅에서는 MCTS에 대해서 본격적으로 알아보겠습니다. MCTS는 기본적으로 state이 주어질 때 그에 맞게 action을 선택하는 알고리즘입니다. 하지만 기본적으로 이 알고리즘은 learning algorithm이 아닌, search algorithm입니다. 하지만 "learning 하는 것 같이" 지식을 축적해가면 보다 더 있음직한 미래의 경우의 수만 살펴보게 됩니다. 이와 같이 어떻게 추려나가 효율적인 선택을 하는지 본론에서 보겠습니다. 개요 - MCTS의 한 loop를 구성하는 4개의 연산들 MCTS 알고리즘의 한 호출은 기본적으로 제한된 resource가 모두 소모될때까지 아래의 연산들을 차례로 연산해가며 partial tree를 계속해서 구성해 나갑니다. Selection Expans..
이번 포스팅에서는 Monte Carlo Tree Search 알고리즘에 대해서 알아보겠습니다. 이 알고리즘은 2016년, 알파고가 이세돌 선수에게 승리를 쟁취하는데에 기여한 알고리즘 중 하나입니다. 이 MCTS 알고리즘을 이용해서 이 player, 즉 알파고가 결정을 내려나갔다는 건데요, 기본적으로 바둑이라는 게임은 인공지능이 정복하기 어려운 게임 중 하나로 평가되는 게임이었습니다. 그럼에도 불구하고 승리를 가능케 한 MCTS 알고리즘은 어떠한 강점이 있기에 그런 어려운 문제를 풀어냈을까요? 먼저 스포일러를 하자면, "있음직한 게임의 경우의 수를 시뮬레이션을 통해 미리 헤아려보고, 그들을 토대로 하여 가장 합리적으로 보이는 수를 선택하는 것입니다. 어떤 문제를 해결해주는 알고리즘인가요? Monte Car..
이번 포스팅에서는 tf-agents 요소들을 조립하여 강화학습 문제를 해결할 때, 필연적으로 등장하는 데이터들의 종류와 그 데이터를 어떻게 다루는지에 대해서 간략하게 설명해보겠습니다. 크게 두 가지 관점에서 데이터를 바라볼 건데요, 하나는 데이터가 이 강화학습 문제에서 갖는 의미이고 또 다른 하나는 데이터의 모양입니다. tf-agents의 큰 그림에 대해서는 이 포스팅에서 다뤄놓았으니 참고하시면 되겠습니다. 데이터의 의미 정말 순수하게 발생한 장소로만 따지면 2개, 실제로 쓰이는 데이터를 따지면 3개입니다. TimeStep - environment에 agent가 action을 가함으로써 얻게 되는 변화한 환경의 모습, 그리고 얻는 reward signal, 추가로 제공되는 discounted factor..
이번 포스팅에서는 tensorflow에서 개발한 tf-agents에 대해서 알아보겠습니다. tf-agnets는 이름에서 알 수 있듯이 강화학습을 아주 빠르게 구현할 수 있게 도와줄 수 있는 라이브러리입니다. 이번 포스팅에서는 세부적으로 모든 모듈을 뜯어보기 보다는, tf-agents를 이용하여 강화학습 문제를 해결 할 때, 어떠한 구성 요소를 조립하여 하나의 모델을 완성하는지에 초점을 두고 설명하겠습니다. 개요 tf-agents 모델을 구성하는 데에 크게 6개의 구성요소가 있습니다. environment agent policy network driver replay buffer checkpointSaver, policySaver 이제 이 조각들이 각각 어떠한 역할을 하는지에 대해서 간략하게 설명해보겠습니..