veganism.social is one of the many independent Mastodon servers you can use to participate in the fediverse.
Veganism Social is a welcoming space on the internet for vegans to connect and engage with the broader decentralized social media community.

Administered by:

Server stats:

302
active users

#ocr

9 posts8 participants1 post today

Früher dachte ich, man bräuchte #OCR, um ältere Bücher in in die so leicht durchstöberbare digitale Welt rüberzuretten.

Was ich heute mit OCR mache: Ich drucke E-Mails in PDF-Dateien aus, in denen die benötigten Infos als etliche Screenshots/Pixelgrafiken eingebettet sind, und lasse dann #OCRmyPDF drüber laufen, um darin suchen zu können.

#Digitalisierung, so ein großes, mitunter wahlkämpferisches Wort, um damit Leute zu überzeugen, die nicht mal E-Mail sachdienlich benutzen können.

🌘 GitHub - ses4255/Versatile-OCR-Program:優化用於機器學習訓練的多模式 OCR 管道(文字、圖形、數學、表格、圖表)
➤ 專為機器學習訓練而生的多功能 OCR 管道
github.com/ses4255/Versatile-O
這個GitHub專案「Versatile-OCR-Program」提供一個針對機器學習訓練優化的多模式 OCR 管道。它能夠處理包含文字、圖形、數學公式、表格和圖表的複雜教育材料,並提供結構化輸出,例如JSON或Markdown格式,方便模型訓練。系統支援多種語言(日文、韓文、英文)並具有高準確率,尤其適用於學術資料集。
+ 這個專案對於需要處理大量學術論文或考試題目的研究人員來說,簡直是救星!它能自動提取並結構化資料,省去了大量人工處理的時間。
+ 這套系統不僅支援多種語言,而且對於數學公式和圖表的處理能力也相當出色,讓我對它在教育領域的應用充滿期待。
#機器學習 #OCR #開源專案

🌘 Omni OCR 基準測試
➤ 評估大型語言模型 OCR 能力的開源工具
github.com/getomni-ai/benchmar
本文件描述了 Omni OCR 基準測試工具,用於評估不同大型多模態模型(如 gpt-4o)的 OCR 和資料提取能力。該基準測試比較了傳統 OCR 供應商和語言模型的 OCR 準確性,並提供開源的評估資料集和方法。主要評估指標為 JSON 準確性和文字相似度,並提供運行基準測試的詳細步驟和支援的模型清單,包含閉源和開源 LLM 以及雲端 OCR 供應商。使用者可以透過設定模型參數和 API 金鑰來運行測試,並查看結果。
+ 這個基準測試對研究 OCR 和 LLM 在資料提取方面的應用非常有幫助,能更客觀地比較不同模型的優劣。
+ 開源的評估方式讓人很放心,可以根據自己的需求擴展測試範圍,參考價值很高。
#人工智慧 #OCR #基準測試 #大型語言模型

So if you’re using Mastodon on the web, you can press the ⚠️ALT button and then follow the “Detect text from picture” link.

On Mac/iOS, you can select text on images as if they were text by clicking/tapping and dragging and paste that in (might be more accurate; that’s what I did).

PS. This was meant to be a reply to mastodon.social/@fatbrit/11421 but somehow didn’t get threaded correctly (was using the web client instead of Mona. I somehow manage to do that there sometimes. Has happened before.) :)

Trying some modern OCR tools recently: marker - github.com/VikParuchuri/marker and Mistral OCR - mistral.ai/news/mistral-ocr

I last looked at this in 2015, when James Bond entered the public domain: hotelexistence.ca/james-bond-e . With 2015 tools, the OCRed output of Bond books was poor.

The new generation is better, but still requires human review.

I admire the quality of work done by Project Gutenberg in their creation of digital editions of books in the public domain.