스캐터랩 블로그
슼랩인들의 고군분투 스토리.zip
Featured
최대 24배 빠른 vLLM의 비밀 파헤치기
"최대 24배의 성능을 보인 vLLM, 코드 레벨까지 분석해보자!"
새로운 루다를 지탱하는 모델 서빙 아키텍처 — 3편: 안정적인 LLM 서비스를 위한 서빙 최적화 기법
Deduplication - 학습 데이터에서 중복 제거하기
새로운 루다를 지탱하는 모델 서빙 아키텍처 — 2편: ArgoCD와 모델 서빙
새로운 루다를 지탱하는 모델 서빙 아키텍처 — 1편: A/B 테스트를 위한 구조 설계
Apache Beam으로 머신러닝 데이터 파이프라인 구축하기 3편 - RunInference로 모델 추론하기
Apache Beam Native API, RunInference로 대규모 데이터 모델 추론하기
TFX 머신러닝 파이프라인 사용하기
팀에서 필요한 학습 파이프라인 구축하기
AWS Inferentia를 이용한 모델 서빙 비용 최적화: 모델 서버 비용 2배 줄이기 2탄
우당탕탕 Inferentia 배포하기
AWS Inferentia 를 이용한 모델 서빙 비용 최적화: 모델 서버 비용 2배 줄이기 1탄
AWS 고객감사 특별 할인... 모델 서빙 비용 최대 80% 초특가 할인전
Apache Beam으로 머신러닝 데이터 파이프라인 구축하기 2편 - 개발 및 최적화
대규모 머신러닝 데이터 파이프라인 개발하고 최적화하기
TensorFlow Custom Op으로 데이터 변환 최적화하기
4.697ms → 17.147μs
하나의 조직에서 TensorFlow와 PyTorch 동시 활용하기
불타는 텐서 흐름!
딥러닝 모델 서비스 A-Z 2편 - Knowledge Distillation
난 선생이고 넌 학생이야
딥러닝 모델 서비스 A-Z 1편 - 연산 최적화 및 모델 경량화
딥러닝 모델 서비스 A-Z 1편