大數據

首箇中文醫療NLP挑戰正式開榜啦!

各位開發者們,有沒有遇到過算法才思泉湧但無數據驗證的困境?或是論文方向確定但沒算力支持檢測模型得分的問題?別怕,天池數據集最新推出了打榜的功能,第一彈就聚集了8大優質醫療NLP數據集,讓我們一起來看看吧。

中文醫療信息處理挑戰榜CBLUE(Chinese Biomedical Language Understanding Evaluation)是中國中文信息學會醫療健康與生物信息處理專業委員會在合法開放共享的理念下發起,由阿里雲天池平臺承辦,並由醫渡雲(北京)技術有限公司、平安醫療科技、北京大學、鄭州大學、鵬城實驗室、哈爾濱工業大學(深圳)、同濟大學、夸克、阿里巴巴達摩院等開展智慧醫療研究的單位共同協辦,旨在推動中文醫學NLP技術和社區的發展。

CBLUE自2021年4月1日起上線,排行榜每日8點統一更新排名。每個月定期評出王者、星耀和鑽石,以每月最後一天上午8點的排名結果為準(如2021年4月以4月30日上午8點排名結果為準)。其中王者有一隊,為第一名;星耀有兩隊,為第二名和第三名;鑽石有三隊,為第四名、第五名和第六名。以上排位獲得不同禮品。

作為首箇中文醫療信息處理挑戰,CBLUE覆蓋了8大醫療NLP任務,在吸收往屆CHIP學術評測的同時也適當增加了業界數據集,業務數據集的特點是數據真實且有噪音,對模型的魯棒性提出了更高的要求。下面介紹下CBLUE榜單所包含的數據集。

CMeEE

數據集全稱是Chinese Medical Entity Extraction,由“北京大學”、“鄭州大學”、“鵬城實驗室”和“哈爾濱工業大學(深圳)”聯合提供,這是一個標準的NER識別任務,共包括9大類實體:疾病(dis),臨床表現(sym),藥物(dru),醫療設備(equ),醫療程序(pro),身體(bod),醫學檢驗項目(ite),微生物類(mic),科室(dep)。和傳統NER略有不同的是,實體之間存在嵌套關係,嵌套實體是醫學文本中常見的現象,因此在模型處理上要比常用的NER模型複雜。

CMeIE

數據集全稱是Chinese Medical Information Extraction,與CMeEE的數據提供方一樣。這是一個關係抽取任務,共包括53類關係類型(具體類型參加官網介紹),從關係種類數量來看,這是一個比較難的任務。與傳統的關係抽取任務有兩處不同: 1. 預測階段並沒有事先給出要判定關係類型的實體,輸入就是原始的文本,因此選手需要同時處理實體識別和關係抽取,可以看作是一個端對端的關係抽取任務;2. 訓練數據中的實體並沒有給出具體的下標,如果一個實體在句子中多次出現,這個任務的難點是無法得知關係中的實體具體是指哪一個實體。

此外這個任務的標註數據還提供了一些額外的信息,如“Combined”字段表示兩個實體是否出現在同一個句子中,true表示兩個實體分佈在跨句子中,false表示分佈在同一個實體中。跨句子的關係抽取一直是關係抽取中較難解決的問題。總體上這個任務的難度較大,特別希望看到刷榜選手有好的解決思路。

CHIP-CDN

數據集全稱是CHIP - Clinical Diagnosis Normalization dataset,是由醫渡雲(北京)技術有限公司提供的。前綴CHIP[2]表示中國健康信息處理會議,全稱是China Health Information Processing Conference,是由CBLUE榜單的發起單位中國中文信息學會(CIPS)醫療健康與生物信息處理專業委員會主辦的關於醫療、健康和生物信息處理和數據挖掘等技術的年度會議,是中國健康信息處理領域最重要的學術會議之一。這是一個標準的實體標準化/歸一化任務,將給定的實體映射到標準字典(ICD10)上,是一個非常真實的醫學臨床的任務。

這個任務的難點由於醫學表達過於多樣,要預測的詞彙可能會存在多個歸一詞條,如數據集例子中給出的“右肺結節轉移可能大” -> “肺佔位性病變##肺繼發惡性腫瘤##轉移性腫瘤”,應該需要融入醫學知識才能更好的解決這個問題。

CHIP-CTC

數據集全稱是CHiP - Clinical Trial Criterion dataset,是由同濟大學生命科學與技術學院提供。是一個典型的端文本多分類問題,共有44個類別(具體類別請參照天池官網)。按照筆者的經驗,多分類問題最大的難點是要解決樣本分佈不均勻的問題,刷榜選手需要關注下樣本分佈比例問題。

CHIP-STS

數據集全稱是CHIP - Semantic Textual Similarity dataset,是由平安醫療科技提供。是一個典型的語義相似度判斷問題,共包含5大類疾病,0/1兩類標籤。這個任務應該不太難。

KUAKE-QIC

數據集全稱是KUAKE-Query Intention Classification,是由夸克公司提供。也是一個文本分類問題,共有11種分類(具體分類請查看天池官網),這個任務的難點會是輸入均來自於真實的用戶query,存在一定的噪音。

KUAKE-QTR

數據集全稱是KUAKE-Query Title Relevance dataset,也是由夸克公司提供。和CHIP-STS類似,是一個典型的Query-Title match問題,只不過是一個4分類問題(共0~3分 4檔)。筆者看了下例子,部分例子還是比較難,如“Q=大腿軟組織損傷怎麼辦,T=腿部軟組織損傷怎麼辦”,這對Q-T的相關性是2分而非3分,因為“大腿”是“腿部”的一個子集,這類任務應該要融入醫學知識來能做到更好的性能。

KUAKE-QQR

數據集全稱是KUAKE-Query Query Relevance dataset,也是由夸克公司提供。和KUAKE-QTR類似,是一個典型的Query-Query match問題,是一個3分類問題(共0~2分 3檔)。任務的難點同KUAKE-QTR,需要融入醫學知識和常識來能做到更好的性能,如這個例子“Q1=石榴上火麼, Q2=吃番石榴上火嗎”,相關度是0分,官方給的解釋是“石榴和番石榴”是兩種完全不同的水果。互聯網語料的豐富度是幾個KUAKE前綴任務都要面臨的問題。

總體來看,8個任務覆蓋了NLP領域大部分類型的問題,包括序列標註、文本分類和句子關係判定,因為這是一個LUE(Language Understanding)榜單,所以沒有出現文本生成的任務。任務類型豐富,均貼近實際應用,部分任務(如CMeIE關係抽取)很有難度。歡迎業界和學術界的同行們一起加入到CBLUE benchmark的建設中,一起來推動醫療行業標準數據集的發展。

詳情請參見數據集專題頁數據集詳情頁。更多活動信息和動態,請掃描下方二維碼加入官方釘群后獲得。也可以發送需求郵件到[email protected]。期待你的加入和建議!

CBLUE.JPG

Leave a Reply

Your email address will not be published. Required fields are marked *