天天視訊!小米新技術落地:能將圖片中的表格轉化成Excel文件

來源:快科技

今天下午,小米創(chuàng)辦人雷軍介紹了小米自研的一套表格識別算法,該算法高效準確地將圖片中的表格轉化為可編輯的Excel文件,大幅提升使用體驗。表格識別是指將圖片中的表格結構和文字信息識別成計算機可以理解的數(shù)據(jù)格式,在辦公、商務、教育等場景中有著廣泛的實用價值,也一直是文檔分析研究中的熱點問題。


(資料圖)

訪問:

阿里云1核2G云服務器低至1折 最高可得500元滿減優(yōu)惠券

訪問:

小米有品

圍繞這個問題,小米研發(fā)了一套表格識別算法,該算法高效準確地提取圖片中的表格,轉化為可編輯的Excel 文件。目前算法已經(jīng)成功落地于小米10S系列、MIX Fold 2等旗艦機型,大家可以從相冊-更多-表格識別,或者掃一掃進入體驗。

表格檢測算法

小米表示,表格檢測算法主要是從圖片中準確的提取表格區(qū)域,并對表格進行矯正,得到平整的表格圖片以便下一步的表格識別;

表格識別算法主要是從圖片中提取表格結構和表格文字內(nèi)容,然后將這些信息有效的結合在一起,輸出可編輯的Excel表格。

表格檢測有以下難點:一方面是手機上的算法和內(nèi)存有限,另一方面是對表格檢測結果要求非常高,表格周圍往往包含其他文字,如果檢測結果不準,會對后面的識別結果造成負面影響。

小米的表格檢測算法會同時檢測到表格區(qū)域和表格的四個角點,通過透視變換和我們自研的抗扭曲算法得到只有表格區(qū)域的平整表格,效果如圖所示。

由于算法運行在手機端,需要保證運行速度和模型大小,小米采用了一個非常輕便的一階段檢測框架,backbone采用shuffleNetV2;

在檢測出表格框的同時,回歸出關鍵點信息,便于表格的透視矯正,并用Wing loss代替L1 loss讓關鍵點回歸更加準確;

數(shù)據(jù)方面,用算法低成本地從公開數(shù)據(jù)中挖掘大量表格檢測數(shù)據(jù),顯著性地提高表格檢測效果。最終模型大小為1M左右,順暢地運行在小米手機上。

表格識別算法

表格識別算法在服務端運行,主要包含的模塊有:文本檢測、文本識別、表格結構預測、單元格匹配、對齊算法、Excel導出。

目前主流的方法是將表格用HTML的超文本表示,然后對HTML進行編碼,預測HTML序列和對應的坐標信息。

該方法在開源數(shù)據(jù)集上取得了不錯的效果,中國平安科技和百度也采用了這種方案,但是HTML 的標簽過多導致表格結構識別容易出錯。

針對該方法的不足,我們對表格采用全新的編碼方式,僅用四個標簽就能表示任意結構的表格,極大地提高了表格結構識別準確率。

表格識別在部署過程中,采用Fastertransformer推理框架進行加速,官方稱小米的推理速度提升了大約20倍,明顯改善用戶體驗。

總結

該算法能高效方便地從圖片中提取表格,極大地提高辦公效率。小米表示,工程師們將持續(xù)提升小米手機中文檔類圖片的識別體驗。

關鍵詞: Xiaomi 小米新技術落地能將圖片中的表格轉化成Ex

推薦

直播更多》

關閉

資訊更多》

焦點

亚洲xxxx18| 99久久精品国产亚洲| 亚洲视频在线观看2018| 亚洲乱码中文字幕小综合| 亚洲综合激情视频| 久久久久亚洲AV无码专区首JN| 亚洲宅男永久在线| 亚洲色图国产精品| 337p日本欧洲亚洲大胆精品555588| 亚洲国产精品久久| 91亚洲一区二区在线观看不卡| 91亚洲一区二区在线观看不卡 | 久久久久亚洲精品无码蜜桃| 亚洲va在线va天堂va不卡下载| 亚洲AV无码成人精品区天堂| 亚洲av激情无码专区在线播放| 亚洲国产精品婷婷久久| 久久精品亚洲一区二区三区浴池| 精品亚洲成AV人在线观看| 亚洲国产精品久久网午夜 | 亚洲国产综合在线| www.亚洲成在线| 亚洲欧美熟妇综合久久久久| 久久综合亚洲色hezyo| 亚洲成aⅴ人片久青草影院| 中文字幕不卡亚洲| 亚洲成在人线av| 777亚洲精品乱码久久久久久| 亚洲国产日韩在线一区| 亚洲 日韩 色 图网站| 亚洲av无码一区二区三区四区| 亚洲AV成人精品日韩一区18p| 中文亚洲AV片不卡在线观看| 国产AV无码专区亚洲A∨毛片| 91嫩草私人成人亚洲影院| 亚洲宅男精品一区在线观看| 亚洲AV色无码乱码在线观看| 亚洲人成国产精品无码| 亚洲AV无码一区东京热| 亚洲成人动漫在线观看| 亚洲精品无码成人片久久不卡 |