大數據

阿里達摩院自然語言技術實習體驗

實習體會

很幸運能來到阿里巴巴進行實習!
組裡的氛圍特別好,同事和師兄師姐都非常專業、友善、親切。無論是科研上還是工作生活上的任何問題,都能得到慷慨的幫助。在這裡,我認識了一批學術和生活上的榜樣(我的主管每天都吃健康餐,而我牛肉湯泡餅),結交了志同道合的朋友(排隊喝牛肉湯回來寫論文的日子),見識到了IT同學的認真負責(遠程幫我調試打印機,週末修電腦),見過了馬雲老師,也親身經歷了一次雙十一奮戰。阿里的科研積澱和文化氛圍都讓我感到收穫頗豐,感謝阿里巴巴提供研究型實習生這一高水平項目,也期待更多的同學可以加入研究型實習生的大家庭。

科研心得& 工作宣傳

今年在阿里巴巴所做的跨領域分詞工作被ACL 2020高分接收,其中meta review說“well-written, well-motivated with strong results, sure accept”。其實這句話可以很好地總結評判科研論文好壞的標準,實際上或許現階段的科研也並沒有什麼祕密,動機明確、方法得當、實驗充分,就可以形成一篇不錯的科研論文。當然了,如果想做出讓領域內眼前一亮的工作,可能就需要一些靈光一閃了。

具體到我們的工作上來,跨領域任務往往面臨目標領域精標註數據缺失的問題,具體到分詞任務上來說,這種數據缺失往往會導致OOV和詞的分佈差異問題。本文通過弱監督啟發式算法來進行遠程標註,並引入對抗學習來進行降噪。本文的實驗中以newswire (新聞語料)作為源領域,在5個不同的目標領域數據上都取得了較好的效果。 這個工作或許有助於我們真正的往跨領域的兩個通用問題上去設計了相關的解決辦法。論文名字:Coupling Distant Annotation and Adversarial Training for Cross-Domain Chinese Word Segmentation

具體可以查看達摩院的官方宣傳~:
**ACL 2020有哪些值得關注的論文? - 阿里巴巴達摩院的回答 - 知乎
https://www.zhihu.com/question/385259014/answer/1190808208**

另外,也宣傳一下作為co-author的另一篇ACL 2020論文,是實習生同事周潔(上海交大研究生)的工作,瞄準多層級文本分類任務,設計層級敏感編碼器將多層結構作為有向圖建模,並且實現了一個串行和並行的版本,論文名字:Hierarchy-Aware Global Model for Hierarchical Text Classification

還有另一個實習生同事張浩宇(國防科大博士生)在IJCAI 2020的工作,使用noisy learning的方法去進行遠程監督entity typing降噪,方法非常優雅,論文名字:Learning with Noise: Improving Distantly-Supervised Fine-grained Entity Typing via Automatic Relabeling

Leave a Reply

Your email address will not be published. Required fields are marked *