近年來,金慧軟件憑借自身的品牌影響力,積極保持著與多所知名高校的良好合作關系,旨在借助雙方資源,本著互相協(xié)作、各施所長、雙向支持的精神,為雙方搭建創(chuàng)新實踐的平臺,實現(xiàn)優(yōu)勢互補、共同成長。
最近,上海交大聯(lián)合金慧軟件合作完成了機械與動力工程學院畢業(yè)生團隊創(chuàng)新課題項目,于今年6月底成果項目在云端實現(xiàn)成功展示。
此項目主要圍繞《關于機器學習的電子文件結(jié)構(gòu)化數(shù)據(jù)提取及問題檢測》課題進行項目設計。由于在當前大數(shù)據(jù)背景下,許多傳統(tǒng)工程企業(yè)面臨著工程文件的管理問題,因此此次項目主要開發(fā)一套程序,用于對合同文件的數(shù)據(jù)提取和工程圖紙的錯誤檢測,從而準確地識別和提取PDF電子合同文件中的信息,監(jiān)測工程圖紙中亂碼、錯位、空缺等常見錯誤信息,優(yōu)化算法,提高識別率等等。
此項目合同文件的處理分為PDF向TXT和TXT向JSON的兩步轉(zhuǎn)化。第一步利用OCR技術提取合同文檔掃描件中的文字內(nèi)容,再進行消除非自然換行等處理,得到規(guī)范化的純文本;第二部利用詞嵌入技術和機器學習將文本以句子為單位轉(zhuǎn)化成向量并進行分類、標記、輸出。
通過6個月項目組齊心的努力,最終獲得豐碩的項目成果:
? 此款程序滿足了 OCR單頁轉(zhuǎn)化時長控制1.5s內(nèi),實現(xiàn)圖片內(nèi)容向文字內(nèi)容的準確轉(zhuǎn)化,合同文件信息提取準確率達到95%以上。
? 此款程序?qū)崿F(xiàn)對工程圖紙各個基本錯誤信息的監(jiān)測,并且在查全率和準確率上面均達到了目標要求。
……