다양한 문서 포멧(doc, docx, hwp, hwpml, hwpx, pdf, 등)으로부터 텍스트 및 이미지 추출을 위한 .net 7.0으로 빌드된 라이브러리입니다. 개인용 및 상업적 용도로 이용 가능합니다. 크로스플랫폼(Windows, Linux에서 배포하여 테스트됨) 지원합니다.
소스는 회사에서 오픈하지 않는걸로 얘기가 되어서 죄송합니다. 전체 소스 오픈을 하려고 추진했는데 실패했습니다.ㅋㅋㅋ(우리도 먹고 살아야하지 않겠느냐라는 말에 어쩔수 없이 좌절했습니다. 그래서 공짜로 써도 되고, 굳이 필요하시면 돈내고 써주셔도 됩니다.ㅋㅋㅋ)
아직 코드 정리가 다되어 있지 않아 좀 지저분합니다. 현재 진행중인 프로젝트 개발 중에 만들어진 라이브러리라서요.ㅎㅎㅎ
이 라이브러리 자체가 사실 그 용도로 만들어졌습니다. 파이썬 의존성 없이 순수 닷넷으로 LLM을 호스팅하기 위해 문서처리기, 벡터 임베팅, 벡터 유사도 검색 모듈, 키워드 검색 모듈, LLM 모델 호스팅까지 개발되어 일부 내용들을 이용해 몇 군데 납품이 되고 있습니다. 아직 초창기 개발 결과라 사용성이나 기능이 미흡하지만 지속적으로 개발할 예정이고 개발 결과물들은 무료로 이용 가능하도록 라이브러리 형태로 배포할 예정입니다. 상반기 정도에 벡터 임베딩을 포함하여 일부 라이브러리를 추가 업로드할 예정입니다. 관심 가져주셔서 감사합니다.ㅎㅎㅎ
기능을 이용할 수 있는 것과는 별개로, 코드 자산 보호가 필요하시다면 난독화 (Obfuscation) 프로세스를 거친 후 릴리즈 빌드를 제공하는 것은 어떨지 검토해보시면 좋겠습니다.
출시한 DLL 파일이 .NET Framework, .NET Core, .NET Standard, .NET 런타임 중 어디에서 쓸 수 있는 것인지, 그리고 AnyCPU, x86, x64, ARM, ARM64 중 어떤 빌드에 해당하는지 명시해주시는 것이 필요할 것 같습니다.
소스 코드가 공개된 제품이 아니기 때문에, 접근성도 더 높이고 자동화된 방법으로 릴리즈를 관리하실 수 있도록 GitHub 리포지터리 대신 NuGet 패키지로 만들어 올리시고 (이 과정은 CI/CD 도구로 자동화가 되는 부분이라 한 번만 해두시면 손 가는 일이 많이 없습니다.), 회사 웹 사이트에서 이를 안내하는 정도로 갈음하시면 관리 포인트를 줄이는데 도움이 될거라 생각합니다.
만약 필요하시다면, 사설 NuGet 패키지 리포지터리를 만들고, 사전 등록 신청을 한 사용자에 국한하여 해당 리포지터리에 액세스할 수 있는 권한을 부여하는 전략도 고민해보시면 좋을 것 같습니다. 이렇게 하면 라이브러리 접근성은 다소 떨어질 수 있으나, 회사 입장에서 놓치고 싶지 않은 수익성을 연결지을 수 있는 좋은 고리가 될 수 있다고 봅니다.