特邀嘉賓：謝朋峻--阿里雲智能高級算法專家
視頻地址：https://yunqi.aliyun.com/2020/session54?liveId=44650

自然語言智能（NLP）

自然語言智能研究實現人與計算機之間用語言進行有效通信。它是融合語言學、心理學、計算機科學、數學、統計學於一體的科學。它涉及到自然語言和形式化語言的分析、抽取、理解、轉換和產生等多個課題。

人工智能可以分為幾個階段

• 計算智能，指依靠計算強大的算力和海量數據的存儲能力，可以在部分領域超越人類的表現。代表例子就是谷歌的alphago，憑藉谷歌TPU的強大算力以及結合類似蒙特卡洛樹搜索、強化學習等算法，能夠在圍棋的巨大搜索空間中計算出好的決策路徑，戰勝人類，這是計算智能；
• 感知智能，是指從無結構化數據中識別出重要的要素。比如給一個query，分析出包含的人民、地名、機構名等；
• 認知智能，是在感知之上，能夠理解其中要素的含義以及進行一些推理。比如“謝霆鋒是誰的兒子誰是謝霆鋒的兒子”兩句話。詞和實體都差不多，但語義差別很多。這是認知智能要解決的問題；
• 創造智能，比如計算機指能夠理解語義的基礎上，創造出符合常識、語義、邏輯的句子。比如自動寫出行雲流水的小說、創造娓娓動聽的音樂能夠無違和跟人自然聊天等
自然語言處理研究覆蓋了感知智能，認知智能，創造智能這樣的學科，是實現完整人工智能的必要技術

自然語言智能發展趨勢

深度語言模型突破式發展, 引領重要自然語言技術取得進展；
公有云NLP技術服務從通用功能走向定製化服務；
自然語言技術逐步與行業/場景緊密結合, 產生更大價值；

阿里集團NLP平臺能力

從下到上分為了NLP數據、NLP基礎能力、NLP應用技術和上層應用。
NLP數據是很多算法的原料，累了包括語言詞典、實體知識詞典、句法詞典、情感分析等詞典等。阿里NLP基礎技術包含了詞法分析、句法分析、文本分析、深度模型。在這之上，是NLP垂直的技術包括問答對話技術反垃圾地址解析等。這些技術的組合，就支持了很多應用。其中搜索是NLP能力非常密集的一個應用

開放搜索中NLP應用和典型技術

• 基礎設施包含了阿里雲基礎產品，以及基於阿里生態搜索場景打磨出的多個搜索自研系統，比如HA3、RTP、Dii等；
• 管控基礎平臺，保證我們離線數據採集、管理、訓練等；
• 算法模塊，我們分為兩塊，一塊是查詢分析相關，包含多粒度分詞、實體識別、糾錯改寫等；另一個塊是相關性和排序相關，包括文本相關性、CTR CVR預估、LTR 等；
（其中橙色背景的表示是跟NLP相關）
開放搜索的目標是要打造一站式、開箱即用的智能搜索服務，所以我們會把這些算法能力，以行業模板、場景化、周邊服務的形式開放給用戶。

開放搜索NLP分析鏈路

搜索的發起，往往是一個搜索關鍵詞觸發，比如用戶搜索“ aj1北卡蘭新款球鞋”

跨領域分詞
我們在開放搜索開放了一系列的領域的分詞模型
分詞挑戰

各個領域不斷新增的未登錄詞或者叫新詞，往往會大大降低分詞效果；
為新用戶定製分詞模型，從標註到訓練的整個過程，成本都比較高；
解決思路
結合統計特徵，比如互信息、左右上等構建一個成詞模型，可以基於用戶數據快速構建一份領域詞典；
結合源領域分詞模型和目標領域的詞典，我們基於遠程監督技術可以快速構建一個目標領域分詞器；

（上圖為自動跨領域分詞框架）
用戶只需要提供給我們一些自己業務的語料數據，我們就可以自動的得到一個定製化的分詞模型，這不僅大大提升了效率，同時也更快滿足客戶的需求。
通過這個技術，我們可以在各個領域獲得比開源通用分詞，更好的效果

命名實體識別
命名實體識別（NER），例如從query中提取人名地名時間等。
挑戰與困難
NER在NLP領域研究非常多同時也面臨很多的挑戰，尤其在中文上由於缺乏天然分隔符，面臨邊界歧義、語義歧義、嵌套歧義等困難。
**解決思路
**• 下圖右上角是我們在開放搜索中使用的模型架構圖；
• 在開放搜索中，很多用戶都積累了大量詞典實體庫。為了充分利用這些詞典，我們提出了一種在bert之上，有機融合知識的graphNer框架。從右下角的表格可以看出，在中文上能取得最好的效果；

拼寫糾錯
開放搜索分為4個糾錯步驟包含了挖掘、訓練、評估和在線預測。
主要的模型根據統計翻譯模型和神經網絡翻譯模型兩套系統，同時在性能、展示樣式和干預上有一套完備方法。

語義匹配
深度語言模型的出現給很多NLP任務帶來了跨越式的提升，尤其是在語義匹配等任務上。
達摩院在bert上也提出了很多創新，提出了自研的StructBert。主要創新點在於在深度語言模型訓練中，增加了字序/詞序的目標函數和更多樣的句子結構預測目標函數，進行多任務學習。但是這樣的通用的structbert是無法試用給開放搜索裡成千上萬個客戶，成千上萬個領域的。我們需要做領域適配。所以我們提出了語義匹配3階段範式。可以快速的為客戶定製適合於自己業務的語義匹配模型。