DataHole 문서 처리기

다양한 문서 포멧(doc, docx, hwp, hwpml, hwpx, pdf, 등)으로부터 텍스트 및 이미지 추출을 위한 .net 7.0으로 빌드된 라이브러리입니다. 개인용 및 상업적 용도로 이용 가능합니다. 크로스플랫폼(Windows, Linux에서 배포하여 테스트됨) 지원합니다.

소스는 회사에서 오픈하지 않는걸로 얘기가 되어서 죄송합니다. 전체 소스 오픈을 하려고 추진했는데 실패했습니다.ㅋㅋㅋ(우리도 먹고 살아야하지 않겠느냐라는 말에 어쩔수 없이 좌절했습니다. 그래서 공짜로 써도 되고, 굳이 필요하시면 돈내고 써주셔도 됩니다.ㅋㅋㅋ)

아직 코드 정리가 다되어 있지 않아 좀 지저분합니다. 현재 진행중인 프로젝트 개발 중에 만들어진 라이브러리라서요.ㅎㅎㅎ

사용법은 간단합니다.

해당 링크에 라이브러리 사용방법과 바이너리를 압축해서 올려놓았습니다.

17 Likes

회사 입장에서는 어려운 결정이었을 것입니다.

감사히, 유용하게, 잘 쓰겠습니다.

2 Likes

제가 사용 안해도 감사합니다~~

2 Likes

하시는 업무에 도움이 되었으면 합니다.^^;
부족하거나 이슈가 있으시면 얘기주시면 가능한 빨리 반영해드릴 수 있도록 하겠습니다.^^

1 Like

감사합니다.ㅎㅎㅎ

1 Like

좋은 정보 감사합니다! ^^

2 Likes

AI Rag시대에 주옥같은 유틸이 될것으로 보여집니다.
충성사용자가 되어보겠습니다. 감사합니다.

2 Likes

이 라이브러리 자체가 사실 그 용도로 만들어졌습니다. 파이썬 의존성 없이 순수 닷넷으로 LLM을 호스팅하기 위해 문서처리기, 벡터 임베팅, 벡터 유사도 검색 모듈, 키워드 검색 모듈, LLM 모델 호스팅까지 개발되어 일부 내용들을 이용해 몇 군데 납품이 되고 있습니다. 아직 초창기 개발 결과라 사용성이나 기능이 미흡하지만 지속적으로 개발할 예정이고 개발 결과물들은 무료로 이용 가능하도록 라이브러리 형태로 배포할 예정입니다. 상반기 정도에 벡터 임베딩을 포함하여 일부 라이브러리를 추가 업로드할 예정입니다. 관심 가져주셔서 감사합니다.ㅎㅎㅎ

3 Likes

훌륭한 기여입니다. 고맙습니다. 몇 가지 피드백을 드리고 싶어 의견 남겨봅니다. :smiley:

  • 기능을 이용할 수 있는 것과는 별개로, 코드 자산 보호가 필요하시다면 난독화 (Obfuscation) 프로세스를 거친 후 릴리즈 빌드를 제공하는 것은 어떨지 검토해보시면 좋겠습니다.
  • 출시한 DLL 파일이 .NET Framework, .NET Core, .NET Standard, .NET 런타임 중 어디에서 쓸 수 있는 것인지, 그리고 AnyCPU, x86, x64, ARM, ARM64 중 어떤 빌드에 해당하는지 명시해주시는 것이 필요할 것 같습니다.
  • 소스 코드가 공개된 제품이 아니기 때문에, 접근성도 더 높이고 자동화된 방법으로 릴리즈를 관리하실 수 있도록 GitHub 리포지터리 대신 NuGet 패키지로 만들어 올리시고 (이 과정은 CI/CD 도구로 자동화가 되는 부분이라 한 번만 해두시면 손 가는 일이 많이 없습니다.), 회사 웹 사이트에서 이를 안내하는 정도로 갈음하시면 관리 포인트를 줄이는데 도움이 될거라 생각합니다.
    • 만약 필요하시다면, 사설 NuGet 패키지 리포지터리를 만들고, 사전 등록 신청을 한 사용자에 국한하여 해당 리포지터리에 액세스할 수 있는 권한을 부여하는 전략도 고민해보시면 좋을 것 같습니다. 이렇게 하면 라이브러리 접근성은 다소 떨어질 수 있으나, 회사 입장에서 놓치고 싶지 않은 수익성을 연결지을 수 있는 좋은 고리가 될 수 있다고 봅니다.

고맙습니다!

5 Likes

고견 감사드립니다.

  • 난독화는 처음 배포할 라이브러리 만들때 했다가 혹여라도 참고하실 분이 있다면 코드 확인 가능하도록 하기 위해 일부러 안하고 배포하였습니다.ㅎㅎ
  • NuGet은 고려하고 있습니다만, 아직 그 정도까지해서 배포할 수준에 완성도가 다다르지 못한듯 하지만, 이런 라이브러리 요청은 업체들에서 간혹 있어서 이런식으로 오픈하였습니다. 조만간 NuGet도 좀 정리가 되면 반영할 수 있도록 하겠습니다.
  • 런타임 버전은 다음 버전부터 명시할 수 있도록 하겠습니다. 가능하면 의존성 줄이고 멀티플랫폼에서 동작을 보장하기 위해 만들고는 있습니다.
  • 사용 지원을 위한 게시판이나 네이버 카페 정도는 만들까 고민하고 있습니다.

좋은 의견 감사드립니다. 최대한 반영하여 많은 분들이 쉽게 실무에 사용하실 수 있는 라이브러리가 되도록 하겠습니다.^^;

6 Likes