ML Engineering - 스캐터랩 블로그

Featured

최대 24배 빠른 vLLM의 비밀 파헤치기

"최대 24배의 성능을 보인 vLLM, 코드 레벨까지 분석해보자!"

ML Engineering

Sep 13, 2023

새로운 루다를 지탱하는 모델 서빙 아키텍처 — 3편: 안정적인 LLM 서비스를 위한 서빙 최적화 기법

ML Engineering

Aug 16, 2023

Deduplication - 학습 데이터에서 중복 제거하기

ML Engineering

Jul 10, 2023

새로운 루다를 지탱하는 모델 서빙 아키텍처 — 2편: ArgoCD와 모델 서빙

ML Engineering

Feb 20, 2023

새로운 루다를 지탱하는 모델 서빙 아키텍처 — 1편: A/B 테스트를 위한 구조 설계

ML Engineering

Jan 27, 2023

Apache Beam으로 머신러닝 데이터 파이프라인 구축하기 3편 - RunInference로 모델 추론하기

Apache Beam Native API, RunInference로 대규모 데이터 모델 추론하기

ML Engineering

Nov 28, 2022

TFX 머신러닝 파이프라인 사용하기

팀에서 필요한 학습 파이프라인 구축하기

ML Engineering

Sep 13, 2022

AWS Inferentia를 이용한 모델 서빙 비용 최적화: 모델 서버 비용 2배 줄이기 2탄

우당탕탕 Inferentia 배포하기

ML Engineering

Aug 16, 2022

AWS Inferentia 를 이용한 모델 서빙 비용 최적화: 모델 서버 비용 2배 줄이기 1탄

AWS 고객감사 특별 할인... 모델 서빙 비용 최대 80% 초특가 할인전

ML Engineering

Jul 13, 2022

Apache Beam으로 머신러닝 데이터 파이프라인 구축하기 2편 - 개발 및 최적화

대규모 머신러닝 데이터 파이프라인 개발하고 최적화하기

ML Engineering

Jun 09, 2022

TensorFlow Custom Op으로 데이터 변환 최적화하기

4.697ms → 17.147μs

ML Engineering

Jan 06, 2021

하나의 조직에서 TensorFlow와 PyTorch 동시 활용하기

불타는 텐서 흐름!

ML Engineering

Dec 04, 2020

딥러닝 모델 서비스 A-Z 2편 - Knowledge Distillation

난 선생이고 넌 학생이야

ML Engineering

Nov 18, 2020

딥러닝 모델 서비스 A-Z 1편 - 연산 최적화 및 모델 경량화

딥러닝 모델 서비스 A-Z 1편

ML Engineering

Mar 11, 2020