[클로드 시리즈_27] 한도가 빨리 찬다고요? Claude Code 토큰이 진짜로 새는 이유와 7가지 절약법

강호종 AI 길라잡이 강사 | 2026.05.28

핵심 결론 먼저

Claude Code의 리밋(사용량 한도)이 빨리 걸리는 진짜 이유는 한도 부족이 아닙니다. '컨텍스트 위생' 문제입니다. 대화가 길어질수록 이전 히스토리 전체를 매 메시지마다 다시 읽기 때문에, 실제로 새로운 결과물을 만드는 데 쓰이는 토큰은 전체의 극히 일부에 불과합니다.
이 글에서는 토큰이 새는 근본 원인부터 지금 당장 적용 가능한 절약 습관까지 수준별로 정리합니다.

1. 자주 쓰는 7가지 토큰 최적화 방법 — 한눈에 보기

본격적인 설명에 앞서 핵심만 먼저 정리합니다.

CLAUDE.md → 200줄 미만으로 유지 → 필요하면 인덱스 라우터로 활용
리팩토링 → "리팩토링 해줘"라고 하면 됩니다
반복적인 작업 → Skills → "OOO 작업을 Skills로 만들어줘"
Sub-agent 구축 → "OOO 작업을 서브에이전트로 구축해줘"
/compact, /clear 주기적으로 활용하기
안 쓰는 MCP 서버 해제
/rewind

2. 리밋이 빨리 걸리는 진짜 이유 — '토큰 재읽기'

토큰(Token)이란?

토큰은 AI가 텍스트를 처리하는 가장 작은 단위입니다.

📌 팩트체크 확인: 한국어는 1글자당 약 2~3토큰, 영어는 1단어당 약 1~2토큰입니다. (PDF 원본의 "1단어당 4토큰"은 구버전 기준 추정치로, 현재 Anthropic 공식 데이터 기준으로 보정합니다.)

치명적인 구조 — 대화 히스토리 누적 재읽기

Claude Code는 새 메시지를 처리할 때마다 이전 대화 히스토리를 전부 다시 읽고 과금합니다. 대화가 길어질수록 누적 비용이 복리처럼 불어납니다.

예시:

1번 메시지 = 500토큰
30번째 메시지 = 누적 히스토리 탓에 메시지 1개에 15,000토큰 소모
전체 토큰의 98.5%가 이전 대화를 다시 읽는 데 낭비
실제 새 결과물 생성에는 1.5%만 쓰이는 구조

이것이 리밋이 빨리 걸리는 핵심 이유입니다.

3. Tier 1 — 초보자용: 지금 당장 적용 가능한 기본 습관

1. /clear 명령어로 주제 분리하기 ⭐ (가장 중요)

주제 A(예: 버그 수정)가 끝난 후 주제 B로 넘어갈 때, 세션을 이어가면 불필요한 이전 컨텍스트까지 모두 돈을 내고 읽게 됩니다. /clear를 입력해 세션을 초기화하고 시작하세요.

2. 안 쓰는 MCP 서버 해제하기

연결된 MCP 서버는 매 메시지마다 도구 정의를 로드합니다. 서버 종류와 수에 따라 수천~수만 토큰이 추가로 소모될 수 있습니다. /mcp 명령어를 쳐서 안 쓰는 서버는 Disable 처리하세요.

💡 MCP Tool Search 활용: Claude Code 2.1.x 이상에서는 MCP Tool Search 기능으로 필요한 도구만 동적으로 로드해 컨텍스트를 최대 95%까지 절감할 수 있습니다.

3. 프롬프트 하나로 합치기 (배치 프롬프팅)

"요약해 줘", "이슈 뽑아 줘", "수정해 줘"를 따로 보내면 히스토리를 3번 다시 읽습니다. 한 번의 긴 메시지로 묶어서 지시하세요.

4. 수정 시 후속 메시지 대신 /rewind 사용하기

AI가 실수했을 때 "이거 틀렸어, 다시 해"라고 치면, 틀린 결과물까지 컨텍스트에 저장되어 계속 돈이 나갑니다. /rewind를 입력해 과거 시점으로 되돌린 후 프롬프트를 다시 작성하세요.

5. 플랜 모드(Plan Mode) 먼저 쓰기

Shift + Tab을 눌러 플랜 모드를 켜거나 "먼저 작업 계획을 세워줘"라고 지시하세요. AI가 잘못된 방향으로 코드를 짜고 다 버리게 되는 최악의 토큰 낭비 상황을 막아줍니다.

6. /cost와 /context 명령어 수시 확인

현재 토큰이 어디에 얼마나 쓰이고 있는지(시스템 프롬프트, 도구 등), 예상 비용은 얼마인지 시각적으로 확인하는 습관을 들이세요.

📌 /context 대신 /usage로 확인할 수 있는 환경도 있습니다. 버전에 따라 명칭이 다를 수 있으니 /help로 사용 가능한 명령어를 먼저 확인하세요.

7. /status-line (상태 표시줄) 켜두기

터미널 하단에 남은 사용량, 컨텍스트 상태를 띄워두고 수시로 체크하세요. 컨텍스트 70% 초과 시 경고 표시로 /compact 타이밍을 놓치지 않을 수 있습니다.

8. 붙여넣기(복붙) 최소화

에러가 났을 때 파일 전체(수백 줄)를 복사해 넣지 마세요. 관련된 함수나 핵심 오류 로그만 발췌해서 전달해야 토큰을 아낄 수 있습니다.

9. 작업 중 모니터링 (방치 금지)

AI가 무한 루프에 빠지거나 엉뚱한 파일을 수정하고 있을 때 바로 즉시 중단(Ctrl+C)시켜 토큰이 불타는 것을 막아야 합니다.

4. Tier 2 — 중급자용: 컨텍스트 위생 관리

방법	내용
CLAUDE.md 가볍게 유지	매 턴마다 로드됨. 80~200줄 이하로 유지
CLAUDE.md 인덱스 라우터로 쓰기	모든 규칙을 직접 쓰는 대신 "스타일 규칙은 A 문서 참조" 식으로 목차만 작성
정밀하게 파일 지목하기	"로그인 고쳐줘" 대신 @auth/login.js의 특정 함수 확인해 줘
컨텍스트 60% 구간에서 수동 /compact	95%에서 자동 압축은 비효율적. 60~70%에서 수동 실행하고 "API 관련 작업 내용을 유지해 줘"라고 가이드 추가
5분 캐시 타임아웃 주의	입력 없이 시간이 경과하면 캐시가 초기화되어 다음 메시지에서 풀 비용 청구. 자리를 비우기 전에 미리 /compact나 /clear 실행
셸 명령어 출력물 통제	npm list나 git log 실행 시 수천 토큰짜리 결과가 컨텍스트를 채움. "최근 커밋 10개만 봐"처럼 범위를 제한

5. Tier 3 — 고급자용: 파워 유저 전략

1. 작업 복잡도에 따른 모델 선택

모델	추천 용도	비용
Opus	복잡한 초기 설계 및 아키텍처 (사용량 20% 이하로 통제)	가장 높음
Sonnet	기본 일상 코딩 (디폴트 권장)	중간
Haiku	단순 포맷팅, 서브에이전트 용	가장 저렴

2. 피크 타임(Peak Time) 피하기

📌 팩트체크 확인: Anthropic 공식 기준 피크 시간은 미국 동부 기준 오전 8시~오후 2시입니다. 한국 시간 기준으로는 밤 9시 ~ 새벽 3시가 피크 구간에 해당합니다. 대규모 리팩토링이나 멀티 에이전트 작업은 이 시간을 피하는 것이 좋습니다.

3. CLAUDE.md를 자가 학습 헌법으로 만들기

AI가 자주 하는 실수나 금지 행동(예: "리서치는 무조건 하이쿠 모델의 서브에이전트를 스폰해서 할 것")을 15단어 이내의 불릿 포인트로 누적하여, 시스템 레벨에서 불필요한 행동을 통제하는 '하네스(Harness)' 구조를 구축하세요.

6. 총정리 — 가장 효과적인 Top 5 액션

주제가 바뀔 땐 미련 없이 /clear 하기
안 쓰는 MCP 서버 즉각 비활성화하기
터미널 하단에 상태 표시줄(/status-line) 켜두기
코딩 전 플랜 모드(Shift + Tab)로 계획부터 확인받기
컨텍스트가 60% 찼을 때 수동으로 /compact 돌리기

💡 핵심 마인드셋: Claude Code의 리밋은 한도가 부족한 것이 아닙니다. 컨텍스트를 얼마나 깨끗하게 유지하며 쓸데없는 히스토리 비용을 줄이느냐(컨텍스트 위생 문제)에 달려 있습니다.

7. Q&A — 자주 묻는 질문 5가지

Q1. /compact와 /clear는 어떻게 다른가요?

/compact는 이전 대화 내용을 AI가 요약(압축)하여 컨텍스트를 줄이는 명령입니다. 관련 작업을 계속해야 할 때 사용합니다. /clear는 컨텍스트를 완전히 초기화하는 명령입니다. 전혀 다른 주제로 넘어갈 때 사용하는 가장 확실한 절약법입니다. 압축은 손실이 있을 수 있으므로, 중요한 맥락은 /compact 후 "API 관련 내용 유지해 줘"처럼 가이드를 붙여주세요.

Q2. CLAUDE.md가 짧을수록 항상 좋은 건가요?

CLAUDE.md는 매 턴마다 로드되므로 길수록 토큰을 더 씁니다. 그러나 너무 짧으면 AI 동작의 일관성이 떨어집니다. 핵심 규칙만 80~200줄 이내로 유지하고, 나머지는 별도 문서로 분리해 "스타일 규칙은 STYLE.md 참조"처럼 인덱스 역할만 하게 만드는 것이 가장 효율적입니다.

Q3. 플랜 모드(Plan Mode)가 토큰을 아끼는 원리는 무엇인가요?

Plan 모드는 코드를 직접 수정하지 않고 '읽기 전용'으로 분석만 합니다. AI가 잘못된 방향으로 수백 줄 코드를 작성하고 버리는 상황을 막아줍니다. 방향을 먼저 승인받은 뒤 실행하면 재작업으로 인한 토큰 낭비를 크게 줄일 수 있습니다.

Q4. Pro 플랜으로 충분한가요, Max로 업그레이드해야 하나요?

Pro($20/월)는 가벼운 코딩 작업에 충분합니다. 이 글의 토큰 절약 습관을 적용하면 Pro로도 충분한 경우가 많습니다. Pro 제한으로 작업이 반복적으로 끊긴다면 Max 5x($100/월)를, 대규모 병렬 에이전트 작업이 필요하다면 Max 20x($200/월)를 고려하세요. 업그레이드 전에 먼저 컨텍스트 위생 습관을 적용해보는 것을 권장합니다.

Q5. 서브에이전트를 쓰면 토큰을 더 아낄 수 있나요?

네. 서브에이전트는 자체 컨텍스트 윈도우에서 작동하고 결과 요약만 메인에 반환합니다. 방대한 탐색 결과나 로그가 메인 컨텍스트를 채우지 않아 전체 토큰 효율이 올라갑니다. 반복되는 리서치·분석 작업은 "OOO 작업을 서브에이전트로 구축해줘"로 에이전트화하면 장기적으로 토큰 절약 효과가 큽니다.

마무리 — 오늘 당장 해볼 수 있는 3가지 액션

지금 세션에 /cost 입력 — 현재 얼마나 썼는지 확인
다음 주제 전환 시 /clear 실행 — 가장 확실한 절약 습관
안 쓰는 MCP 서버 1개 비활성화 — /mcp에서 Disable 처리

리밋은 한도 문제가 아닌 습관 문제입니다. 위 5가지 Top 액션만 몸에 익혀도 같은 요금제로 훨씬 더 많은 작업을 처리할 수 있습니다. 적용해보고 가장 효과적이었던 방법을 댓글로 공유해 주시면, 다음 편에서 실제 사례로 다뤄보겠습니다!

[클로드 코드 시리즈]를 마무리하며: 7편에 걸쳐 Claude Code의 핵심 기능을 모두 다뤘습니다. 1편(7단계 로드맵) → 2편(Git 연동) → 3편(터미널 설치) → 4편(서브에이전트) → 5편(MCP 연동) → 6편(Hooks) → 7편(토큰 절약)까지, 이제 여러분은 Claude Code를 실무에서 제대로 활용할 준비가 된 것입니다.

작성자 | 강호종 AI 길라잡이 강사

생성형 AI 활용 업무 효율화 전문강사 · 디지털융합교육원 지도강사
젠스파크 AI 전문강사 · (사)한국AINFT협회 이사
저서: 『생성형 AI 활용 업무혁신』(2026) · 『이것이 GEO마케팅이다』(2026)
📞 010-9912-9934 · 📧 art386@naver.com · blog.naver.com/art386 · aiart386.tistory.com

#클로드코드토큰 #ClaudeCode토큰절약 #AI토큰최적화 #ClaudeCode #클로드코드 #토큰아끼는법 #컨텍스트위생 #강호종강사 #AI길라잡이 #생성형AI #compact #clear #rewind #플랜모드 #바이브코딩 #Anthropic #MCP서버최적화 #CLAUDE.md #서브에이전트 #2026AI트렌드

'클로드(Claude)' 카테고리의 다른 글

[클로드 시리즈_29] 클로드 Co-work란? — 챗봇에서 에이전트로 넘어가는 전환점 (0)	2026.05.28
[클로드 시리즈_28] 🖥️ 클로드 코워크(Claude Cowork) 설치부터 첫 화면까지 — 5분이면 충분합니다 (0)	2026.05.28
[클로드 시리즈_26] AI가 잊어버려도 괜찮다 — Claude Code Hooks(훅)로 규칙을 강제하는 법 (0)	2026.05.28
[클로드 시리즈_25] Claude Code에 날개 달기 — MCP 서버 연동으로 Notion·Slack까지 자동화하는 법 (0)	2026.05.28
[클로드 시리즈_24] AI 직원을 고용하는 방법 — Claude Code 서브에이전트 & 에이전트 팀 완전 정복 (0)	2026.05.28