一、產品概述
OCR圖文識別系統,是武漢冠興科技自主研發的一套可部署至本地服務器的文字識別服務,支持主流 CPU/GPU 環境及國產化系統部署,可對各種OCR原子化識別能力和應用服務進行統一的接入、調度、路由和安全控制。常見的OCR能力包括PDF文件識別、圖片文字識別、截圖識別、票證識別、圖片轉Excel等功能,一鍵解析、高效識別。
二、產品優勢
先進技術:自主研發的管理平臺,與先進技術保持同步,持續進行技術研究和產品創新;
成熟平臺:成熟的開放式應用平臺,提供開箱即用的場景化服務;
穩定性強:系統具備高可用,支持分布式部署,易擴展;
經驗成熟:多年行業客戶服務經驗,深耕教育行業應用場景,積累了良好的客戶口碑和實施經驗;
效能提升:基于深度學習算法的OCR、NLP技術融合應用,提升產品應用的速度、精度和廣度。
三、產品架構
項目總體架構圖如下:
系統采用統一的OCR服務接入和管理、即插即用;
開放式微服務管理平臺,可集成各種AI產品。
四、產品功能特點
1.高效識別文字
平臺采用先進的OCR識別技術,通用場景下的整圖文字檢測和識別服務,支持圖片、PDF指定頁識別,支持PDF全文檔識別,支持指定文本框或文本整行返回識別結果,圖片/PDF傳參支持URL格式或BASE64字符串格式。高達95%的識別精度,輕松實現文檔數字化。
支持 TIFF、 JPEG、 PNG、 BMP 格式圖像的讀取;
支持 avi、 rmvb、 rm、 mp4、 3gp 等視頻格式。
2.多國語言識別
支持多國語言識別,一鍵識別生成各國家語言文字。識別圖片中的文字信息及文字區域的坐標信息,支持中文簡體、中文繁體、英文、日文等20種語種識別。
3.敏感詞內容檢測
系統可通過OCR技術自動生成關鍵詞,并根據檢索關鍵詞內容對圖片、文檔、視頻等教學研究數據進行敏感詞定位或安全性檢查。精準識別各類場景中涉政人物、政治事件、宗教、反動分裂以及恐怖主義等違規文本。
4.自動解析圖文
平臺對圖文混排的文檔具有自動分析功能,將文字區域劃分出來后自動進行識別。
5.文件批量識別
支持文件一鍵批量識別,杜絕重復勞動,提高工作學習效率。
6.精準檢索糾錯
平臺提供更強大的文字識別糾錯技術,精準地檢測出文檔樣式、標題等內容化。
7.人像比對分析
采用AI技術,根據圖像特征及關鍵字自動匹配模板,通過人臉圖像采集及檢測、人臉圖像匹配與識別,實現面部特征識別。
系統管理模塊提供配置工具,允許管理員用戶依據自身管理需要,對后臺數據進行配置。
9.接口管理
平臺具備標準的統一身份認證接口,可與通用的認證系統進行集成。
10.集群化部署
支持CPU和GPU單多卡,可根據服務器配置情況,設置預測最大并行數,多路并行請求同時響應處理,充分利用服務器算力資源,滿足多并發場景的識別需求。支持多服務器集群化部署,滿足高并發場景的識別需求。
11.私有化部署、多操作系統支持
提供標準的鏡像部署包,支持在Linux、 Window 等服務器操作系統上的私有化部署。