大數據

算法專家解讀 | 開放搜索教育搜題能力和實踐

講師:徐光偉(昆卡)--阿里雲達摩院算法專家

視頻地址:https://developer.aliyun.com/live/246649

教育搜題解決方案地址:https://www.aliyun.com/page-source/data-intelligence/activity/edusearch

開放搜索簡介-引擎優勢

開放搜索(OpenSearch)是基於阿里巴巴自主研發的大規模分佈式搜索引擎搭建的一站式智能搜索業務開發平臺,通過內置各行業的查詢語義理解、機器學習排序算法等能力,提供充分開放的算法及引擎能力,助力開發者快速搭建更高性能、更高搜索基線效果的智能搜索服務。

image

其搜索引擎採用阿里自研的整套搜索工程體系-AIOS系統,支撐著阿里系包含淘寶、天貓、lazada、閒魚、優酷、菜鳥、盒馬等全部的搜索場景,在穩定性和工程效率上都是行業領先水平。

image

開放搜索簡介-算法優勢

開放搜索(OpenSearch)在算法上集成達摩院NLP(自然語言處理)團隊的核心技術,NLP Foundations 中的詞法分析、句法分析、語義分析、文本分析、deep learning 技術都處於業界領先。通過對各行業智能語言處理的深入研究,在開放搜索的行業應用中產品化落地。

image

教育搜題-業務背景

近幾年在線教育行業飛速發展,根據2020中國移動互聯網教育學習APP行業月活用戶規模TOP10的統計,月活前十中針對K12教育的APP有6個,具備搜題場景的APP有5個;說明了搜題功能在教育行業的的重要性。

image

(數據來源:QuestMobile<2020中國移動互聯網年度大報告>)

工具型的產品能力,它是用來幫助產品獲得大量的用戶和流量,從而為其他的業務提供變現能力。在線教育行業中拍照搜題作為產品掠取流量最重要的工具,抓住了家長、學生輔導和解題上需求,為其他的業務變現提供源源不斷的流量。正是由於這樣的定位,搜題的準確性和效率變得更加重要,將直接影響品牌的口碑和用戶粘性。

教育搜題-業務特點

image

海量題庫

客戶的題庫一般都是千萬甚至億級別,而且還在快速持續的增長。同時搜題業務存在比較明顯的高峰現象。在平時的晚上787到8點,尤其是週末的最後一天或者是節假日的最後一天。QPS存在很明顯的高峰,具備高彈性和低延遲的雲搜索,雲搜索能力就成為了客戶的首選。

場景豐富

搜題的場景越來越豐富,涵蓋不同的年級,比如低年級出現比較多的像看圖識字、連線題等,這種需要圖片信息的,還有包含不同的學科,現在已有的學科已經超過10個,這些豐富的場景都會對搜索效果產生影響。

算法需求

因為蒐集產品一般只會展現top 3到top5的1個結果,對於準確性的要求極高,同時還會依賴一些多模態和多元的算法能力來解決圖文搜索和多元處理的需求。

開放搜索如何提供精準高效、穩定的一站式搜題解決方案

image

  • 左邊:用戶拍照題目,經過OCR識別之後的文本,通過中間的開放搜索(OpenSearch )引擎得到Top 3-5的召回結果進行展示;
  • 右邊:客戶題庫,開放搜索會嚴格保證客戶數據的安全和隱私;
  • 中間:開放搜索(Open Search )引擎部分包含了文檔召回、排序定製和干預功能三大模塊

開放搜索Query處理流程image

查詢語義理解

案例說明:

image

教育搜題定製分詞器

搜題場景分詞難點:

  1. 英文題目,ocr 識別之後的空格缺失;
  2. 數學題目latex公式表示之後的切分;

解決方法:

  • 針對第一個問題,收集千萬級K12英文語料訓練語言模型,即便對超長的英文連寫也可以精準切分;

image

  • 針對第二個問題,利用開放搜索自帶的分詞幹預能力將latex表示中的運算符號預處理;

     image

類目預測-學科、題型分類

什麼是類目預測?

  簡單來說,用戶輸入一個query,查詢得到一批商品,通過計算每一個商品所屬的類目與query之間的相關度,只要商品的排序公式中引用了這個相關度,那麼對於這個商品來說,它所屬的類目與query的相關度越高,它的排序公式的計算結果就獲得了越高的排序得分,從而這個商品就會排在越前面。

教育行業中的應用

  • 結合輸⼊的圖⽚信息和OCR識別之後的結果預測輸⼊題⽬的學科類別、題目類型;
  • 預測各⽂本⽚段的字段類型(題幹描述、選項等等);

image

詞權重分析

功能介紹:該功能主要分析了查詢中每一個詞在文本中的重要程度,並將其量化成權重,權重較低的詞可能不會參與召回。這樣可以避免當用戶輸入的查詢詞中包含一些權重低的詞時,仍然按用戶輸入的查詢詞限制召回,導致命中結果過少。

功能用途Query丟詞、改寫、文本相關性分析;

1. 基於用戶行為生成訓練數據

首先是基於querydock 點擊行為去構建點擊圖,然後利用vpc 計算法得到TOM 之間的一個重要度偏訓

image2. 詞權重模型訓練

  • 在進行規劃之後得到訓練數據利用序列標註模型去預測每一個特用的權重;
  • 預測標籤(7,4,1), 分值越⾼表⽰term的重要性越⼤, 召回結果更準確;

示例:

image

Query改寫-干預功能

開放搜索除了已經內置的這些算法能力同時還支持用戶的批量干預::詞典、拼寫糾錯,同義詞,詞權重等;

示例:

  1. OCR識別可能會把一些非題目要素識別進來干擾query分析的結果,這時候可以使用詞權重干預的方式保證非題目要素字段被打標成低權重,保證召回和排序效果;
  2. 用戶可以自定義同義詞來擴召回,例如“立方米” -> “噸”;

教育搜題排序定製

系統開放了兩階段排序過程:基礎排序和業務排序,即粗排和精排;基礎排序即是海選,從檢索結果中快速找到質量高的文檔,取出TOP N個結果再按照精排進行精細算分,最終返回最優的結果給用戶。為了實現更細粒度的排序效果,結合排序表達式(Ranking Formula)可以為應用自定義搜索結果排序方式 。

image

多路召回-語義向量召回

為什麼搜題要做多路召回?

教育拍照搜題場景相比網頁/電商的文本搜索有顯著差異:

  • 搜索query特別長:常規檢索term數上限30,搜題需要放到100;
  • 搜索query是由拍照OCR識別之後得到的文本,關鍵term的識別錯誤會嚴重影響召回排序;

純文本查詢方案

1. OR邏輯查詢

  • 為了降低無結果率,搜題客戶常見的系統是基於ES默認的OR邏輯,latency高,計算消耗大;
  • OpenSearch也支持OR邏輯,針對latency高可以通過並行seek的方式優化,但整體計算消耗仍然高

2. AND邏輯查詢

  • 採用通用的query分析模塊,無結果率高,整體準確性不如OR邏輯;
  • 針對教育領域優化定製的query分析模塊,大幅提高效果,準確性接近OR邏輯;

如何去兼顧計算消耗和搜索準確性那?我們在此引入了文本向量檢索

文本向量檢索

目標:通過文本向量檢索擴召回,結合AND邏輯查詢,做到latency和計算消耗低於OR邏輯的情況下準確性更高;

向量召回採用目前最先進的BERT模型,其中針對教育搜題做的特別優化有:

  • BERT模型採用達摩院自研的StructBERT,並針對教育行業定製模型;
  • 向量檢索引擎採用達摩院自研的proxima引擎,準確性和運行速度遠超開源系統;
  • 訓練數據可以基於客戶的搜索日誌不斷積累,效果持續提升;

這個圖我們可以看到有一項召回,在召回率上已經達到凹邏輯。同時在準確性上現在超出2邏輯3到5個點,整體的召回到數減少40倍的情況下,latency 可以降低10倍以上。

image

效果:

  1. 召回率達到OR邏輯
  2. 準確性超出OR邏輯3%-5%
  3. 整體召回doc數量減少40倍,latency降低10倍以上

多路召回-文本向量多路召回

多路召回優勢:

   文本召回和語義向量召回的結合在搜題場景已經驗證有效,開放搜索的多路召回架構還將有更多的使用空間:圖片向量召回、公式召回、個性化召回

   除了開放搜索內置的向量模型,我們也將支持客戶自己的向量索引,歡迎客戶和我們一起深耕搜題算法優化。

image

搜題案例效果展示

案例1:搜題query:"張慧研所指與小磁大概相近的是樂府之音

image

案例2:搜題Query: “如圖是由一些相同的小正方體搭成的幾何體從三個不同方向看得到的形狀圖,則搭成這樣的幾何體需要__個小正方體

imageimage

最佳實踐 – 開放搜索對比開源/自建優勢

1、某K12教育客戶: 某在線教育平臺,主打K12教育,用戶數千萬級別,題庫量8千萬左右且持續增加,由自建題庫和第三方題庫兩部分組成,之前通過OCR+自建ES搜索服務實現拍照搜索功能,面臨的主要問題是搜索準確率待優化提升,降低搜索延遲等問題。

客戶反饋:

  • 搜題準確率絕對值提升5%
  • 延時從100ms-300ms降到穩定50ms;
  • 離線數據同步大於4000TPS;

2、某高職教育客戶:某聚焦在大學生搜題領域的在線教育公司,產品DAU300W,月活1000W,業務高峰期日均搜題PV過億。

客戶反饋:

  • 對比自建系統高峰搜索耗時>2s,開放搜索穩定搜索耗時50ms,同比下降40倍;
  • TOP5題目搜索準確率平均提升2.4%
  • 搜索無結果率從高於40%降低至不到1%;
  • 業務高峰期秒級平滑擴容,解決高併發搜索需求;

如果您對搜索與推薦相關技術感興趣,歡迎加入釘釘群內交流

image.png

【開放搜索】新用戶活動:阿里雲實名認證用戶享1個月免費試用

https://free.aliyun.com/product/opensearch-free-trial

Leave a Reply

Your email address will not be published. Required fields are marked *