陳尚澤 教授

小編有話說

研究方向 / 專題內容

實驗室方向:

主要探討機器學習的各面相,如安全性,隱私性,及公平性。 這是因為機器學習在很多領域的準確率已經非常高了,甚至比一般人還高,也因此機器學習開始被用在跟人相關的重要決策中。但要真正落實在實際應用中,只有準確率是不夠的。例如在安全性方面,我的主要研究主題之一是對抗性機器學習 (adversarial machine learning)。更明確的說,我想要揭露機器學習模型在不同環境及假設下的漏洞,然後更近一步提出解決方法來強化這些模型。
  大部分的機器學習系統都假設測試階段的資料分布會相似於訓練階段。然而,這在現實生活中不一定成立。這就是為什麼很多模型在一個特定的資料集上表現得很好,但部署在實際系統中表現卻不如預期。例如微軟的線上聊天系統在一天內就被網友們 “帶壞了”,學會說歧視性的言論。或是在人臉辨識中,惡意使用者可以帶上特製的眼鏡來假扮成特定的人。因此,若要使用AI於重要應用中,我們必需要預設各種可能的攻擊,且做最壞可能性下的測試。
  而在隱私性方面,若機器學習模型是訓練在隱私資料上,壞人可能可以從模型反推出訓練資料的資訊,造成隱私資料外流。例如你在訓練一個自然語言處理模型,訓練資料中有 “王小明的信用卡號是 xxx”,而這個隱私資訊被模型 “記下來了”,壞人就有可能可以得到他的卡號。如何防止甚至保證避免這種隱私攻擊是很重要的研究問題。而公平性是指,雖然模型整體準確率很高,但可能在特定族群中做得很差。常見的原因是資料分布不均。如人臉辨識資料集大多是白人,因此其他有色人種的準確率就明顯比較低。這是目前逐漸受到重視的一個領域。

可能可以參與的題目

  1. 防禦對抗式攻擊:目前的防禦方法都還有很多缺陷,如運算複雜度太高。如何設計有效率又有用的防禦方法?
  2. 防禦後門攻擊:壞人加了惡意資料在訓練集中,使得只有在某些測試資料出現時才出現異常行為。如何防禦?
  3. 自監督學習 (self-supervised learning): 如何不用或用很少的標注資料就可以訓練得好?
  4. 聯邦式學習 (federated learning): 如何在分散式訓練中,確保隱私問題?
  5. 多模態資料學習: 透過文字,圖片,音訊,光學雷達等資料的交互學習,達到更好的訓練效果,或是更好的防禦方式。
  6. 異常檢測:這部分主要是跟台達電合作,由網路封包,各種傳感器 (如電力,溫度等) 在工廠環境工偵測異常或被攻擊的情形。

Q & A

Q1: 請問教授的實驗室的研究領域是什麼?

Q2:請問教授希望自己的專題生具備什麼特質或能力?

Q3:請問教授會指定研究主題嗎?或者是可以讓專題生自行指定?會安排專題生做什麼樣的學習(比如讀paper等)?專題生有機會參與實驗室正在進行的研究嗎?

Q4:請問教授對於專題生有什麼樣的期望?

Q5:請問待在教授實驗室的大學部學生一週大約得花多少時間在專題研究上?

Q6:請問教授認為為何專題對資訊系學生是必要的?教授認為經歷過專題的學生應當要習得甚麼樣的技能或是有甚麼樣的研究經驗?

Q7:請問教授會建議學生們什麼時候開始接觸專題呢?

Q8:請問教授對於還沒非常了解自己興趣的同學在選擇實驗室的方面有什麼樣的建議?

Q9:請問教授,成為專題生之後,如果發現研究主題和自己的興趣不合時,該怎麼辦呢?

Q10:請問若已經加入別的教授的實驗室,可以再跟教授做專題嗎?