GP-GPU 구조 시리즈: 챕터 4-2 - Memory System
이번 포스트에서는 GPU의 L1 cache외의 메모리 계층인 L1 texture cache, L2 cache, memory partition에 대해 다뤄볼 예정이다.
이번 포스트에서는 GPU의 L1 cache외의 메모리 계층인 L1 texture cache, L2 cache, memory partition에 대해 다뤄볼 예정이다.
GPU는 많은 양의 데이터를 한 번에 처리한다. 코어의 높은 throughput에 버금가는 데이터를 전달해야할 의무가 있기 때문에, 큰 용량을 가지기보다는 넓은 bandwidth를 제공하는 방식으로 발전해왔다. 이번 챕터는 메모리 시스템에 관한 내용이다.
이전 글에 이어서 계속 하겠다. 이번 게시글은 two-loop approximation과 three-loop approximation에 대한 설명이다. One-loop approximation이 단순한 GPU 구조를 가정했다면, two, three-loop approximation...
현대의 GP-GPU는 수천~수만개의 쓰레드를 동시에 처리할 수 있다. 이를 가능케하기 위해 SIMT 코어는 다양한 방법을 채용했는데, 이번 게시글에서는 이를 알아보도록 하겠다.
GPU의 프로그래밍 모델은 GPU 하드웨어의 동작과 다르게 설계되어 있다. 이는 프로그래밍의 편리성을 증대시키기 위해서인데, 덕분에 프로그래머는 편리하게 GPU를 사용할 수 있게 되었다.
초창기 GPU는 비디오 게임의 실시간 렌더링을 담당하기 위해 개발되었다. 하지만 근 몇 년 사이에 GPU는 General-Purpose의 기능이 강해지면서, 다양한 연산들을 가속하기 위해 사용되었다. 그래서 GPU는 GP-GPU (General-Purpose Graphics Pro...
최근 바쁘다보니 블로그 관리도 거의 하지 않았는데, 논문 리비전도 거의 마무리 지었고 슬슬 여유가 생기는 것 같아서, 오래전부터 생각하고 있던 컴퓨터구조 게시물 연재를 시작하기로 했다.
책장에 오랜기간 꽂아둔 채 먼지만 쌓였던 책인데, 최근 다시 꺼내들게 되었다. 책의 저자인 앤절라 더크워스는 심리학자인데, 성공한 사람들에 대해 오랜기간 연구해왔다.
예전부터 느꼈던 거지만, 내가 읽고 쓰고 배웠던 모든 것들이 시간이 가면서 점점 까먹게 됐는데 그런게 너무 아까웠다.
MBTI에서 INFJ-T, 그중에서도 뚜렷한 J 성향인 나는 계획이 없고, 정리가 안 되어 있는 꼴을 잘 못 본다. 그래서 나는 모든 걸 정리하려고 시도한다.
본 페이지에서는 RISC-V 베어메탈 환경에서 머신모드 트랩 처리 과정을 정리한다.
RISC-V는 시스템의 안정성과 보안을 위해 계층적인 privilege 모드를 도입한다. 각 모드는 서로 다른 권한 수준과 역할을 가지며, 소프트웨어와 하드웨어 간의 명확한 경계를 형성한다.
컴파일러에서는 이름으로 인한 충돌을 해결하기 위해 function, structure, class, 또는 data type 등에 unique name을 부여한다. 이 과정에서 name mangling이란 테크닉을 사용한다.
BSS 섹션은 초기값이 주어지지 않은 정적 변수들을 효율적으로 관리하기 위한 중요한 영역이다. 컴파일 시 object file에는 해당 변수들의 크기 정보만 기록되어 파일 크기를 줄인다. 실행 시 로더가 메모리에 할당한 후 해당 영역을 0으로 초기화함으로써, C/C++의 ...
이번에 CNN 기반 backbone network에 대해서 공부할 기회가 생겼다.
최근에 Chat-GPT Plus를 결제하고 나서, 이것저것 실험을 해보고 있었다.
블로그를 꾸준히 하기란 정말 어려운 일인 것 같다. 게다가 Github 페이지와 Jekyll로 구성해둔, 내 블로그는 유지/보수 난이도도 높아서 더더욱 손이 가지 않았기도 했다.