LLaMA視覚モデルをベースにしたOCRツール「Ollama-OCR」が登場しました

LLaMA視覚モデルをベースにしたOCRツール「Ollama-OCR」が登場しました。このツールは、さまざまな出力フォーマットをサポートしており、PythonパッケージとStreamlitウェブアプリの2つの使用方法を提供しています。

対応フォーマットは、Markdown、プレーンテキスト、JSON、構造化データ、キー・バリューペア形式などがあります。また、バッチ処理をサポートし、進行状況の追跡機能も提供されています。さらに、画像の前処理機能も搭載しています。

GitHub:https://github.com/imanoop7/Ollama-OCR

コメントを残す