分享人:徐光偉(昆卡) 阿里巴巴達摩院算法專家
瞭解更多解決方案詳情:https://www.aliyun.com/page-source/data-intelligence/activity/edusearch
搜索是在線教育企業流量獲取的利器
截至2020年12月份教育行業月活TOP10的統計,其中具備搜題能力的軟件多達5個,拍照搜題作為產品能力,可以幫助客戶獲取大量用戶以及流量,從而為其他產品提供變現能力,正是由於這樣定位,拍照搜題整體準確性和搜索效率都成為至關重要的一點,所以開放搜索對此做了很多訂製優化。
教育搜題業務特點
對於教育搜題業務場景歸納了三大特點:
第一點海量題庫,教育題庫都是屬於千萬級別甚至到億級別,而且不斷的持續增長;同時搜題業務存在很明顯的高峰現象,例如晚上七八點,節假日最後一天,這時搜題會存在非常高的QPS的波峰;搜索延遲會嚴重影響用戶的體驗。
第二點場景豐富,拍照搜題涵蓋的場景越來越豐富,包括不同的年齡段,例如低年級搜題主要圍繞拍照看圖識字或連線題,需要更多的圖片信息的題目;還包括不同的學科,目前支持的學科多達十多種,因此豐富的場景就會對搜索效果帶來更大的挑戰。
第三點算法需求,拍照搜題產品形態一般只會展現TOP3或者TOP5的結果,正是因為這樣設定,準確性對於拍照搜題來說至關重要,同時拍照搜題還會涉及到多模態和多語言處理能力,解決圖文搜索和多語言處理的需求。
開放搜索教育搜題方案架構
阿里雲開放搜索的拍照搜題解決方案,當用戶通過拍照經過OCR識別之後的文本,經過開放搜索引擎處理後會返回TOP3-5的結果給用戶得到展示,並且針對企業題庫數據嚴格保證數據的安全和隱私。
教育搜題算法能力
查詢分析算法優化完整的處理流程
教育行業分詞和學科類目預測
分詞在拍照搜題場景下存在兩大難點,第一點英文題目OCR識別之後空格缺失,左邊第一個圖可以看到,即便針對很長沒有空格的英文文本,模型也是可以非常準確的做正確的切分。第二個難點是數學題目公式表示之後的切分,左邊第二個圖可以看到數學符號部分都做出正確的切分。
類目預測在拍照搜題場景下對應的就是學科的預測和題型的預測,我們結合圖片以及OCR識別之後的文本信息做多模態預測,從而提高搜題準確率。
多路召回排序技術
由於拍照搜題業務場景的特殊性,開放搜索還引入了多路召回排序技術。
為什麼要做多路召回呢?
教育拍照搜題相比傳統的網頁或者電商的搜索存在明顯的差異,第一點是搜索的Query特別長,第二點是搜索的Query由拍照OCR識別之後得到的文本,其中關鍵TERM識別錯誤的話,就會嚴重影響召回排序。
傳統的純文本查詢方案包括兩種,第一種是OR邏輯查詢,第二種AND邏輯查詢,AND邏輯查詢上基於我們剛才說到的針對教育領域優化定製的Query模塊分析之後大幅提高效果,現在可以做到準確性接近OR邏輯。
如何兼顧搜索計算開銷以及搜索的準確率呢?
引入了文本的向量召回,對文本向量召回技術優化了三點,
第一點是其中的BERT模型我們採用達摩院自研的StructBERT,並針對於教育行業做了定製,同時對BERT模型做壓縮加速。
第二點是向量檢索引擎採用達摩院自研的Proxma引擎,準確性和速度都超越開源系統。
第三點訓練數據可以基於客戶的搜索日誌不斷積累,效果持續提升。
從右邊的圖可以看到,最終我們在基於兩側的BERT模型就可以達到非常好的效果,準確性超過OR邏輯3%—5%,整體召回DOC數量減少40倍,Latecy降低10倍以上。
搜題效果展示
舉例兩個具體搜題的case,左邊這個case可以看到其中因為問題中的文字描述和題庫中文字描述不一致,傳統搜索引擎返回的結果相關性極差,經過我們引入語意向量召回之後右邊TOP3結果完全符合題意。第二個case因為這個題目中包含圖片的信息,傳統的搜索引擎無法做到準確的召回,基於我們多路召回引入圖象信息之後TOP1返回完全一致的題目。
開放搜索解決方案優勢
案例一:某K12的教育用戶,用戶數達到千萬級別,題庫量在八千萬左右而且在持續增加,客戶接入開放搜索之後返回搜題準確率提升45%,延遲降到50%毫秒。
案例二:某高職教育客戶,產品DAU三百萬,月活一千萬,客戶接入之後反饋對比他們原先自建的系統,在高峰時候耗時大於兩秒,現在開放搜索可以穩定在50毫秒,同比下降40倍。TOP5題目搜索準確率提升2.4%搜索結果從原來40%降到不到1%,業務高峰期可以實現秒級平滑擴容。
獲得專家指導:
https://survey.aliyun.com/apps/zhiliao/6R4u6vilI
如果您對搜索與推薦相關技術感興趣,歡迎加入釘釘群內交流