AI뉴스 - Gemma 4, Veo3.1 Lite, 오픈AI 새 이미지 모델, 클로드 코드 유출, 타입캐스트, Grok Quality Mode 등

← 2026-04-08 목록으로

핵심 요약

구글의 오픈 모델 ‘젬마 2(Gemma 2)’는 아파치 2.0 라이선스로 공개되어 상업적 이용이 자유로우며, 31B 파라미터 크기임에도 불구하고 70B~100B급 이상의 대형 모델(Llama 3 70B 등)과 대등하거나 앞서는 성능을 보여줍니다.
앤스로픽의 ‘클로드 코드(Claude Code)’ 소스 코드가 NPM 레지스트리의 맵 파일을 통해 유출되는 사고가 발생했으며, 이를 기반으로 한국 개발자가 파이썬 버전의 ‘클로코드(Claw-code)’를 제작하는 등 오픈 소스 생태계에 큰 파장을 일으키고 있습니다.
텍스트, 이미지, 오디오, 영상을 동시에 처리하는 ‘옴니 모델(Qwen 3.5 Omni 등)’과 실시간 영상 채팅 에이전트(Pika Stream 1.0)가 등장하며, AI가 단순한 도구를 넘어 실시간 상호작용이 가능한 에이전트 단계로 진입하고 있습니다.

주요 내용

1. 구글의 강력한 오픈 모델 ‘Gemma 2’ 출시 및 성능

성능 혁신: 젬마 2는 모델 사이즈 대비 압도적인 성능을 자랑하며, 아레나(Arena) 엘로 점수 기준 31B 모델이 397B~685B 파라미터 모델보다 높은 순위를 기록함.
온디바이스 AI: 아이폰 17 프로 등 최신 스마트폰에서 초당 40토큰(40t/s)의 속도로 구동 가능하여 클라우드 연결 없이 기기 내부에서 고성능 AI 처리가 가능해짐.
라이선스: 아파치 2.0 라이선스 채택으로 누구나 상업적으로 자유롭게 사용 및 수정 가능.

2. 앤스로픽 클로드 코드(Claude Code) 소스 유출 및 정책 변화

유출 사고: NPM 레지스트리에 업로드된 맵 파일을 통해 클로드 코드의 전체 소스 코드와 시스템 프롬프트, 텔레메트리 구조 등이 공개됨.
오픈 소스화: 유출된 구조를 바탕으로 파이썬으로 재작성된 ‘Claw-code’가 깃허브에서 가장 빠르게 성장하는 레포지토리로 주목받음.
구독 정책 강화: 앤스로픽은 ‘OpenClaw’ 등 제3자 도구에서 클로드 프로 구독 계정을 연동해 사용하는 것을 공식적으로 차단하고, API 키 사용을 강제함.

3. 멀티모달 및 영상 생성 기술의 진화

오픈AI GPT-Image-2: 세계 지도나 유튜브 UI 내의 텍스트를 깨짐 없이 완벽하게 렌더링하는 차세대 이미지 모델의 결과물들이 화제가 됨.
구글 Veo 3.1 Lite: 기존 모델 대비 약 3배 저렴한 가격으로 고품질 영상을 생성할 수 있는 비용 효율적 모델 출시.
넷플릭스 VOID: 영상 내에서 특정 객체를 제거해도 물리 법칙을 유지하며 배경을 채워주는 기술(물리 시뮬레이션 기반 객체 삭제) 발표.

4. 에이전트 및 실무 활용 도구

타입캐스트(Typecast): 감정 조절이 가능한 ‘스마트 이모션’ 기능과 보이스 클로닝, 멀티 언어 지원을 통해 숏폼 및 게임 제작에 최적화된 TTS 서비스 제공.
K-skill: SRT/KTX 예매, 지하철 정보 등 한국인 실생활에 특화된 기능을 AI 에이전트가 수행할 수 있도록 돕는 스킬 모음집.
Awesome Design MD: 애플, 에어비앤비 등 유명 기업의 디자인 시스템을 AI 에이전트가 이해하기 쉬운 마크다운 파일로 역설계하여 제공.

핵심 데이터 / 비교표

1. Gemma 2 (31B) Arena Elo Score 비교

| 모델명 | 파라미터 크기 | Arena Elo Score | |—|—|—| | Gemma 2 31B | 31B | 1452 | | Qwen-3.5 397B | 397B | 1441 | | Kimi-K2.5 Thinking | 1100B | 1450 | | Deepseek V3.2 | 685B | 1426 |

2. 구글 Veo 3.1 가격 비교 (초당 비용)

| 모델 버전 | 720p 가격 (USD) | 1080p 가격 (USD) | |—|—|—| | Veo 3.1 Lite | $0.05 | $0.08 | | Veo 3.1 Fast | $0.15 | $0.15 | | Veo 3.1 Standard | $0.40 | $0.40 |

타임스탬프별 핵심 포인트

| 시간 | 핵심 내용 | |—|—| | 00:00 | 젬마 2 모델 소개 및 아파치 2.0 라이선스 안내 | | 00:47 | 젬마 2의 파라미터 대비 압도적인 아레나 엘로 점수 분석 | | 02:40 | 아이폰 온디바이스 구동 속도(40t/s) 시연 | | 03:56 | 구글 Veo 3.1 Lite 출시 및 가격 경쟁력 강조 | | 05:21 | 오픈AI의 미발표 이미지 모델 ‘GPT-Image-2’ 성능 추정치 유출 | | 07:14 | 타입캐스트(Typecast)의 감정 TTS 및 AI 에이전트 게임 연동 시연 | | 15:08 | 클로드 코드 소스 유출 사건 및 ‘Claw-code’ 프로젝트 소개 | | 17:16 | 앤스로픽의 제3자 앱 구독 연동 차단 및 API 정책 변화 | | 18:18 | 클로드 ‘컴퓨터 유즈(Computer Use)’ 윈도우 버전 출시 | | 21:21 | 넷플릭스 VOID 기술 - 영상 내 객체 삭제 시 물리 법칙 유지 |

결론 및 시사점

오픈 소스의 대형 모델 추월: Gemma 2와 같은 모델의 등장은 파라미터 수가 성능의 절대적 척도가 아님을 증명하며, 중소형 모델로도 충분히 강력한 AI 서비스를 구축할 수 있는 시대를 열었습니다.
개발 환경의 급격한 변화: 클로드 코드 소스 유출과 이를 재해석한 Claw-code의 확산은 폐쇄형 모델의 핵심 로직이 어떻게 오픈 소스 생태계로 전이되는지 보여주는 사례이며, 기업들의 보안 및 구독 모델 방어 전략이 강화될 것으로 보입니다.
콘텐츠 제작의 민주화: 숏폼 자동화 도구(쇼츠젠 등)와 저렴해진 영상 생성 모델, 정교한 TTS 기술이 결합되면서 전문 지식 없이도 고품질 콘텐츠를 생산하고 수익화하는 ‘방구석 CEO’의 출현이 가속화되고 있습니다.

추가 학습 키워드

Gemma 2: 구글의 최신 고성능 오픈 가중치 모델
Multimodal Omni Model: 텍스트, 이미지, 음성, 영상을 통합 처리하는 AI 모델
On-device AI: 클라우드 없이 단말기 자체에서 수행되는 AI 기술
Computer Use: AI가 사람처럼 컴퓨터 화면을 보고 키보드/마우스를 조작하는 기술
TTS (Text to Speech): 텍스트를 음성으로 변환하는 기술, 최근 감정과 톤 조절이 핵심임

기본 정보

| 항목 | 내용 | |—|—| | 채널 | 조코딩 JoCoding | | 카테고리 | 기타 | | 게시일 | 2026-04-06 | | 영상 길이 | 28:19 | | 처리 엔진 | gemini-3-flash-preview | | 원본 영상 | YouTube에서 보기 |