陳尚澤教授

Email: stchen@csie.ntu.edu.tw
教授個人網頁: https://www.csie.ntu.edu.tw/~stchen/
訪談者：王苡涵
訪談年份：2021

小編有話說

關鍵字檢索：AI 安全、AI 公平性、對抗性機器學習、惡意 ML 模型
小編偷偷說：教授給予專題生高度的自由，希望大家可以在大學時，累積實驗室的經驗進而學習研究方法，並找到自己喜歡的領域。教授也認為很多東西就算不知道、還未接觸過，也可以在研究的過程中做中學。對機器學習的安全性、隱私性、公平性有興趣的話，不妨找教授聊聊喔！

研究方向 / 專題內容

實驗室方向：

主要探討機器學習的各面相，如安全性，隱私性，及公平性。這是因為機器學習在很多領域的準確率已經非常高了，甚至比一般人還高，也因此機器學習開始被用在跟人相關的重要決策中。但要真正落實在實際應用中，只有準確率是不夠的。例如在安全性方面，我的主要研究主題之一是對抗性機器學習 (adversarial machine learning)。更明確的說，我想要揭露機器學習模型在不同環境及假設下的漏洞，然後更近一步提出解決方法來強化這些模型。
大部分的機器學習系統都假設測試階段的資料分布會相似於訓練階段。然而，這在現實生活中不一定成立。這就是為什麼很多模型在一個特定的資料集上表現得很好，但部署在實際系統中表現卻不如預期。例如微軟的線上聊天系統在一天內就被網友們 “帶壞了”，學會說歧視性的言論。或是在人臉辨識中，惡意使用者可以帶上特製的眼鏡來假扮成特定的人。因此，若要使用AI於重要應用中，我們必需要預設各種可能的攻擊，且做最壞可能性下的測試。
而在隱私性方面，若機器學習模型是訓練在隱私資料上，壞人可能可以從模型反推出訓練資料的資訊，造成隱私資料外流。例如你在訓練一個自然語言處理模型，訓練資料中有 “王小明的信用卡號是 xxx”，而這個隱私資訊被模型 “記下來了”，壞人就有可能可以得到他的卡號。如何防止甚至保證避免這種隱私攻擊是很重要的研究問題。而公平性是指，雖然模型整體準確率很高，但可能在特定族群中做得很差。常見的原因是資料分布不均。如人臉辨識資料集大多是白人，因此其他有色人種的準確率就明顯比較低。這是目前逐漸受到重視的一個領域。

可能可以參與的題目

防禦對抗式攻擊：目前的防禦方法都還有很多缺陷，如運算複雜度太高。如何設計有效率又有用的防禦方法？
防禦後門攻擊：壞人加了惡意資料在訓練集中，使得只有在某些測試資料出現時才出現異常行為。如何防禦？
自監督學習 (self-supervised learning): 如何不用或用很少的標注資料就可以訓練得好？
聯邦式學習 (federated learning): 如何在分散式訓練中，確保隱私問題？
多模態資料學習: 透過文字，圖片，音訊，光學雷達等資料的交互學習，達到更好的訓練效果，或是更好的防禦方式。
異常檢測：這部分主要是跟台達電合作，由網路封包，各種傳感器 (如電力，溫度等) 在工廠環境工偵測異常或被攻擊的情形。

Q & A

Q1: 請問教授的實驗室的研究領域是什麼？

機器學習的各個面向，如：安全性、隱私性、公平性

Q2:請問教授希望自己的專題生具備什麼特質或能力？

特質：真的想要學東西、不被動，主動探索
能力：系上同學都很棒！有修過線代、機率就好，最好有修過 ML

Q3:請問教授會指定研究主題嗎？或者是可以讓專題生自行指定？會安排專題生做什麼樣的學習（比如讀paper等）？專題生有機會參與實驗室正在進行的研究嗎？

研究生不指定主題，因為發現有價值的研究主題是研究中很重要的一環，教授會藉由討論慢慢找到大家適合的主題。專題生的部分，當然也偏好上述方法，但如果學生比較想馬上投入研究，也可以讓專題生跟研究生做專題
剛開始進實驗室會跟學生討論大方向，並給學生一些 paper。學生可以藉由這些 paper 找出自己的興趣，再從 confernece 發表的 paper 中找到最有興趣的 part 做 survey
目前我們在做的有：1. 台達電的產學合作，工廠環境中的異常檢測 2.機器學習的公平性、安全性、隱私性的 trade-off

Q4:請問教授對於專題生有什麼樣的期望？

理想上，可以投上 top-conference 哈哈。但就至少可以為大家留下一些對研究所、工作有所幫助的紀錄，例如說他們的方法、工具可以放在網路上 ( GitHub, 學術文章) 以任何形式看到成果，我想對大家未來都會很有幫助

Q5:請問待在教授實驗室的大學部學生一週大約得花多少時間在專題研究上？

看個人，不會硬性要求學生到實驗室，專題生標準沒那麼高，學到東西最重要

Q6:請問教授認為為何專題對資訊系學生是必要的？教授認為經歷過專題的學生應當要習得甚麼樣的技能或是有甚麼樣的研究經驗？

必要，除非一直當碼農，不然總有一天會需要用到做研究累積的能力
發現問題的能力：不是每個人未來都會做研究，但不管是否選擇研究的道路，能夠在現有架構下看到問題都是必要的能力
搜集問題的能力：看 paper 在舊人的基礎上發現自己的方法，站在巨人的肩膀上看世界
解決問題的能力：根據特定的狀況做取捨，了解沒有最好的方法是你要的是什麼

Q7:請問教授會建議學生們什麼時候開始接觸專題呢？

越早越好，像我二下就開始
美國的同學都很早，甚至一年級就開始
你會知道線代、機率知道為什麼要學？邊做邊學也是一種方法，這很看個人，像我們實驗室教授、學長姊都會教。

Q8:請問教授對於還沒非常了解自己興趣的同學在選擇實驗室的方面有什麼樣的建議？

多嘗試，甚至可以多換實驗室，先進入一個不反感的實驗室，這是一個探索的過程
大學加入兩個實驗室，林軒田、林守德的實驗室
這是個跨領域的時代，你的經驗都會是很棒的觀點
AI 很強，可以用你的專長結合其應用

Q9:請問教授，成為專題生之後，如果發現研究主題和自己的興趣不合時，該怎麼辦呢？

可以跟教授說想換主題，可能只是選錯主題
如果是對 ML 沒有興趣當然可以換實驗室，這很正常

Q10:請問若已經加入別的教授的實驗室，可以再跟教授做專題嗎？

我現在有兩個專題生也有跟別的老師做研究 (完全不相干的專題)

陳尚澤 教授