멀티모달리티, RAG, 함수 호출을 제공하는 온디바이스 소규모 언어 모델

2025년 5월 20일
Mark Sherwood Senior Product Manager
Matthew Chan Staff Software Engineer
Marissa Ikonomidis Staff Software Engineer

Google AI Edge는 작년에 Android, iOS, 웹에서 초기 모델 4가지로 온디바이스 소규모 언어 모델(SLM)을 지원하기 시작했습니다. 오늘 이 지원 범위를 12가지 이상의 모델로 확대하게 되었다는 반가운 소식을 알려드립니다. 새 LiteRT Hugging Face 커뮤니티에서 호스팅되는 새 Gemma 3와 Gemma 3n 모델이 대표적인 예입니다.

Gemma 3n은 Google AI Edge를 통해 초기 미리보기로 제공되고 있으며, Gemma 최초의 멀티모달 온디바이스 소규모 언어 모델로 텍스트, 이미지, 동영상, 오디오 입력을 지원합니다. 이 모델을 새로 출시된 검색 증강 생성(RAG)함수 호출 라이브러리와 함께 이용하면 에지에서 혁신적인 AI 기능을 빌드하고 프로토타입을 제작하는 데 필요한 모든 것을 활용할 수 있습니다.

온디바이스 SLM과 새로운 함수 호출 라이브러리를 통해 사용자에게 앱 통제권 부여

더 폭넓은 모델 지원

LiteRT Hugging Face 커뮤니티에서 더 넓어진 모델 선택지 목록을 확인하세요. 이러한 모델 중 아무것이나 다운로드한 다음 코드 몇 줄 만으로 손쉽게 온디바이스에서 실행할 수 있습니다. 이러한 모델은 모바일 및 웹용으로 완전히 최적화 및 변환되어 있습니다. 모델을 실행하는 방법에 관한 안내는 설명서와 Hugging Face의 각 모델 카드를 참조하세요.

모델을 사용자 설정하려면 기본 모델을 미세 조정한 다음 적절한 AI Edge 라이브러리를 사용해 모델을 변환하고 양자화하면 됩니다. Gemma 3 1B를 미세 조정한 다음 변환하는 과정에 필요한 모든 단계를 보여드리는 Colab이 마련되어 있습니다.

최근 양자화 도구를 출시하면서, 훨씬 높은 수준의 int4 훈련 후 양자화를 가능하게 하는 새로운 양자화 방식을 도입했습니다. 수많은 모델의 기본 데이터 유형인 bf16에 비해, int4 양자화를 사용하면 언어 모델의 크기를 2.5~4배 축소할 수 있고, 그러면서도 지연 시간과 피크 메모리 사용량을 대폭 줄일 수 있습니다.


Gemma 3 1B 및 Gemma 3n

올해 초에 저희는 Gemma 3 1B를 선보였습니다. 이 모델은 단 529MB 크기로, 모바일 GPU에서 프리필 단계에서 초당 최대 2,585개 토큰을 처리할 수 있어 한 페이지 분량의 콘텐츠를 1초 이내에 처리할 수 있습니다. Gemma 3 1B는 작은 크기로 인해 광범위한 기기에서 사용 가능하고, 사용자가 앱에서 다운로드해야 하는 파일 용량을 줄여줍니다.

오늘 지원되는 모델 컬렉션에 Gemma 3n의 초기 미리보기를 추가한다는 반가운 소식을 전해드립니다. 2B4B 매개변수 버전 모두 네이티브 텍스트, 이미지, 동영상, 오디오 입력을 지원합니다. 텍스트와 이미지 모달리티는 지금 Hugging Face에서 사용할 수 있고, 오디오도 곧 추가될 예정입니다.

완전히 온디바이스로 이미지를 분석하는 Gemma 3n

Gemma 3n는 개발자가 기기의 모든 리소스를 활용할 수 있는 엔터프라이즈 사용 사례에 적합하며, 모바일에서도 대용량 모델을 실행할 수 있습니다. 네트워크가 연결되지 않은 현장 기술자가 부품 사진을 찍고 질문할 수 있습니다. 창고나 주방의 직원들은 손을 사용할 수 없는 상황에서 음성으로 재고를 업데이트할 수 있습니다.


대화에 컨텍스트 부여: 온디바이스 검색 증강 생성(RAG)

Google AI Edge에 새로 도입되는 기능 중 가장 기대를 모으는 것은 강력한 온디바이스 검색 증강 생성(RAG) 지원입니다. RAG를 사용하면 소규모 언어 모델을 애플리케이션별 데이터로 보강할 수 있고, 따로 미세 조정을 거치지 않아도 됩니다. 1,000페이지 분량의 정보든 사진 1,000장이든, RAG를 이용하면 모델에 제공할 가장 관련성 높은 몇 개의 데이터를 찾는 데 도움이 됩니다.

AI Edge RAG 라이브러리는 지원되는 모든 소규모 언어 모델과 호환됩니다. 또한 RAG 파이프라인의 어느 부분이든 유연하게 변경하여 맞춤 데이터베이스, 청킹 방법, 검색 기능을 구현할 수 있습니다. AI Edge RAG 라이브러리는 현재 Android에서 사용 가능하며, 더 많은 플랫폼 지원도 예정되어 있습니다. 이는 온디바이스 생성형 AI 애플리케이션을 구체적이고 사용자 맞춤형 정보를 토대로 구축할 수 있게 되어, 새로운 차원의 지능형 기능을 구현할 수 있음을 의미합니다.


작업 지원: 온디바이스 함수 호출

온디바이스 언어 모델을 완전한 대화형으로 만들기 위해 온디바이스 함수 호출을 도입합니다. AI Edge 함수 호출 라이브러리는 현재 Android에서 사용 가능하며, 더 많은 플랫폼 지원도 예정되어 있습니다. 이 라이브러리에는 온디바이스 언어 모델 통합, 애플리케이션 함수 등록, 응답 파싱, 함수 호출에 필요한 모든 유틸리티가 포함되어 있습니다. 설명서를 확인하여 직접 사용해 보세요.

이 강력한 기능을 통해 언어 모델이 애플리케이션 내에서 사전 정의된 함수나 API를 언제 호출할지 지능적으로 결정할 수 있습니다. 예를 들어 샘플 앱에서는 함수 호출을 사용하여 자연어로 양식을 작성하는 방법을 시연합니다. 의료 앱에서 예약 전 환자 병력을 묻는 상황에서 사용자가 개인 정보를 구술합니다. 그러면 앱이 함수 호출 라이브러리와 온디바이스 언어 모델을 사용하여 음성을 텍스트로 변환하고, 관련 정보를 추출한 다음, 개별 필드를 채우는 애플리케이션별 함수를 호출합니다.

함수 호출 라이브러리는 Python 도구 시뮬레이션 라이브러리와도 함께 사용할 수 있습니다. 도구 시뮬레이션 라이브러리는 합성 데이터 생성 및 평가를 통해 특정 함수에 맞는 맞춤형 언어 모델 생성을 지원하여 온디바이스 함수 호출의 정확도를 높입니다.


다음 단계

앞으로도 계속해서 에지에서 새로운 모달리티를 포함한 최신이자 최고의 소규모 언어 모델을 지원할 예정입니다. 새 모델 출시 소식은 LiteRT Hugging Face 커뮤니티를 확인해 주세요. RAG와 함수 호출 라이브러리 역시 기능과 지원 플랫폼을 지속적으로 확장할 예정입니다.

Google AI Edge에 관한 더 많은 소식을 보려면 새로운 LiteRT API와 광범위한 온디바이스 벤치마킹 및 평가를 지원하는 새로운 AI Edge 포털 서비스를 확인해 보세요.

이 공지와 Google I/O 2025의 모든 업데이트는 5월 22일부터 io.google에서 확인하실 수 있습니다.


감사의 말

이번 출시를 도와주신 다음 Google 직원 여러분께도 감사드립니다. Advait Jain, Akshat Sharma, Alan Kelly, Andrei Kulik, Byungchul Kim, Chunlei Niu, Chun-nien Chan, Chuo-Ling Chang, Claudio Basile, Cormac Brick, Ekaterina Ignasheva, Eric Yang, Fengwu Yao, Frank Ban, Gerardo Carranza, Grant Jensen, Haoliang Zhang, Henry Wang, Ho Ko, Ivan Grishchenko, Jae Yoo, Jingjiang Li, Jiuqiang Tang, Juhyun Lee, Jun Jiang, Kris Tonthat, Lin Chen, Lu Wang, Marissa Ikonomidis, Matthew Soulanille, Matthias Grundmann, Milen Ferev, Mogan Shieh, Mohammadreza Heydary, Na Li, Pauline Sho, Pedro Gonnet, Ping Yu, Pulkit Bhuwalka, Quentin Khan, Ram Iyengar, Raman Sarokin, Rishika Sinha, Ronghui Zhu, Sachin Kotwani, Sebastian Schmidt, Steven Toribio, Suleman Shahid, T.J. Alumbaugh, Tenghui Zhu, Terry (Woncheol) Heo, Tyler Mullen, Vitalii Dziuba, Wai Hon Law, Weiyi Wang, Xu Chen, Yi-Chun Kuo, Yishuang Pang, Youchuan Hu, Yu-hui Chen, Zichuan Wei