LLM을 서빙하는 여러 방법들 가운데에서도 많은 주목을 받는 것이 WebGPU를 이용하여 서버 없이 로컬 자원만으로 LLM을 구동하는 On Device LLM에 대한 것이 있겠습니다. 흥미롭게도, Blazor WASM과 WebLLM을 JavaScript Interop을 이용해서 연결하고, LLM을 On Device로 구동한 예제를 Telerik에서 공개한 것이 있어 공유해봅니다.
다만 iOS의 경우 WebGPU 기능이 실험적 기능으로만 활성화할 수 있어서 별도로 옵션을 켜주어야 위의 샘플을 돌려볼 수 있는 것 같습니다.
https://mil-tokyo.github.io/webdnn/docs/tips/enable_webgpu_ios.html