雲計算

存儲計算解耦合,構建中國人英語語音數據庫

公司介紹

流利說是世界領先的科技驅動的教育公司,作為智能教育的倡行者,流利說擁有一支業內領先的人工智能團隊,經過多年積累,流利說已擁有巨型的“中國人英語語音數據庫”,累積實現記錄大約 37 億分鐘的對話和 504 億句錄音。

流利說自主研發了領先的英語口語評測、寫作打分引擎和深度自適應學習系統,從聽、說、讀、寫多個維度提升用戶的英語水平,為用戶提供一整套系統性的英語學習解決方案,截止 2020 年 6 月 30 日,累計註冊用戶達1.856 億。

10.jpg

業務場景介紹

2013 年流利說推出了第一款產品“英語流利說”,集成了語音識別、打分和自適應學習等多種核心技術。具有上下文情景對話、發音指導課程等豐富內容,並提供人工智能英語老師和遊戲化的學習體驗,為用戶在英語學習中獲得更多樂趣。這款有趣又有效的產品很快就佔領了當時的市場並獲得了用戶的高度認可。
但業務快速發展,用戶數大幅度增長,平臺的用戶數量已從當初的百萬級,增長至過億,因此業務的高低峰期數據流量變化、業務複雜度和分析難度都給給 IT 架構帶來了巨大的挑戰。

業務難點

流利說在面對日常業務需求量以及用戶數量飛速增長的情況下,流利說常常需要面對以下幾個不同的挑戰

不同時段流量變化大,系統需要支持動態請求流量
由於每天不同時段流量變化很大,高峰時段的流量會達到平時的 10 倍,需要系統有足,夠的能力支持動態變化的請求流量,因此對於系統彈性拓展能力,就提出了很高的要求。

產品組合和功能豐富,如何為系統平穩運行提供保障
由於產品組合和功能越來越豐富,對於系統的能夠提供的性能要求不斷增加,大量的付費用戶對於訪問體驗有很高的期望,因此需要高可靠、高穩定的系統,來支撐各款產品平穩地運行。

數據量級與應用系統複雜度增加,系統容量和性能成問題
流利說自研口語評測、寫作打分引擎和深度自適應學習系統,每天都需要根據用戶學習情況進行分析,根據每個用戶不同的學習給予評分和指導建議,隨著用戶數的增加和應用複雜度的增加,對於大數據系統的容量和性能都有著極高的要求。

阿里雲數據湖解決方案

針對流利說日常業務對雲服務的彈性、穩定性和大算力的極高要求,阿里云為流利說量身定製了一站式數據湖解決方案。

首先,對於數據存儲,流利說的大數據平臺使用 OSS 作為數據基礎層,解決了流利說多類數據的統一存儲,同時對接多種計算引擎。而且 OSS 提供了 99.9999999999% (12 個 9)的數據持久性和99.995% 的高可用性,有力的保障流利說的業務穩定和可靠。

在大數據計算方面,通過阿里雲 EMR 構建大數據計算集群,提供了包括 Hadoop、Hive、Spark、Presto 在內的多種大數據計算引擎。基於數據湖的存儲與計算解耦合架構,所有計算任務的最終數據都是存儲到 OSS 持久存儲。

同時,阿里雲數據湖解決方案對開源生態提供非常友好的支持,客戶基於開源框架開發的應用和業務代碼,可以不用修改,直接基於阿里雲的數據湖解決方案運行。

最後,阿里雲 VPC 網絡、RAM 等訪問控制保障體系,更是為流利說的核心資產“中國人英語語音數據庫” 提供了更可控,更細粒度的安全訪問控制保護。

26.png

達到的效果

通過阿里云為流利說量身打造的數據湖解決方案,解決了流利說多種應用的各類數據的統一存儲,幫助流利說構建數據規模高達上千億的“中國人英語語音數據庫”。使用阿里雲構建的數據湖,可以充分發揮計算與解耦合架構的優點,結合阿里雲 ECS 彈性實例和 K8S,根據實際業務需求,動態擴展、縮減對應計算資源,無須按照業務峰值常駐計算資源,這種靈活的使用模式,能夠幫助流利說最大程度地優化成本。

Leave a Reply

Your email address will not be published. Required fields are marked *