GPT中文比國產大模型強?清華大學孫茂松:英語訓練刻畫語義空間,帶動中文能力

2023-07-31 09:17:51|

來源：搜狐科技

大會開場前，圍繞如何提升大模型中文理解能力、人工智能如何賦能基礎

搜狐科技《思想大爆炸——對話科學家》欄目第18期，對話歐洲科學院外籍院士、清華大學計算機與科學技術系教授、清華大學人工智能研究院常務副院長孫茂松。

(資料圖)

嘉賓簡介

孫茂松，清華大學計算機科學與技術系長聘教授（曾任該系系主任）。清華大學人工智能研究院常務副院長，歐洲科學院外籍院士，國際計算語言學學會（ACL）會士，中國人工智能學會會士、中國中文信息學會會士。長期從事自然語言處理、人工智能、計算社會人文研究。國家重點基礎研究發展計劃（973計劃）項目首席科學家，國家社會科學基金重大項目首席專家。在國內外一流學術會議和重要刊物上發表論文200余篇，Google Scholar論文引用3.4萬次。2016年獲“全國優秀科技工作者”。

劃重點

1.ChatGPT主要用英文數據做訓練，為何中文能力也很強？英語的語料覆蓋面大，質量較高，很多學術論文都是英文。英語訓練很好地刻畫了語義空間，這時再加入中文語料，相當于在語義空間里把中文和英文做某種對齊。這種情況下，它的主要能力是由英語帶過來的。

2. 想要進一步提升大模型的中文能力，需建設高質量的語料庫，比如像中文的科技論文庫之類的。另外，大模型真的要做到通用程度的話，英文能力要有，再去做中文，把中文語料再搞大一些，這樣可能會把能力進一步地提升。

3. AI賦能科學研究我覺得天地遼闊，現在才是剛剛開始，努力耕耘的話，應該很快就有不錯的收獲。

4.如果你覺得科研枯燥，就請你不要做科研。一定要有興趣才來做，而不是把它簡單當成一份工作，有興趣就不會覺得枯燥，反而會覺得其樂無窮。

出品｜搜狐科技

作者｜鄭松毅

近日，由中國科協科學技術傳播中心與清華大學求真書院主辦的基礎科學與人工智能大會在北京國家科技傳播中心召開。

大會開場前，圍繞如何提升大模型中文理解能力、人工智能如何賦能基礎科學研究等問題，搜狐科技與歐洲科學院外籍院士、清華大學計算機與科學技術系教授、清華大學人工智能研究院常務副院長孫茂松進行了對話。

孫茂松曾將ChatGPT稱為“通用人工智能的幽靈”，并用杜牧的《阿房宮賦》舉例，ChatGPT精準的挑出了文中所有描寫阿房宮的句子，令他不禁感嘆ChatGPT理解中文能力之強。

當被問及為什么ChatGPT主要用英文數據做訓練，為什么其仍具備強大的中文理解及創作能力時，孫茂松表示，“英語的語料足夠大，覆蓋面比中文要好，質量也比較高，很多學術論文都是英文，能被用來訓練的就多。因此通過英語的語言訓練，很好地刻畫了語義空間。語義空間和語言是相對獨立的，但又不完全獨立，這時候再用一些中文語料，相當于在語義空間里把中文和英文做某種對齊。這種情況下，它的主要能力是由英語帶過來的。”

孫茂松認為，語言大模型提升中文語言能力的關鍵在于提升中文語料的質量和數量。他強調，“高質量的語料庫還要想辦法去建設，比如像中文的科技論文庫之類的，能不能拿來用，這是一方面。另外，大模型真的要做到通用程度的話，英文能力要有，再去做中文，中文的話盡量要把語料再搞大一點。這樣可能會把能力進一步地提升，因為語言之間有很多是可以打通的。”

談及AI如何賦能基礎科學研究，以及如何才能堅持做好科研工作時，孫茂松表示，“AI賦能科學研究我覺得天地遼闊，現在才是剛剛開始，努力耕耘的話，應該很快就有不錯的收獲。”他強調，“如果你覺得科研枯燥，就請你不要做科研。一定要有興趣才來做，而不是把它簡單當成一份工作，有興趣就不會覺得枯燥，反而會覺得其樂無窮。”

以下為對話實錄（經整理編輯）

搜狐科技：您曾將ChatGPT稱為“通用人工智能的幽靈”，并用杜牧的《阿房宮賦》舉例，稱贊其理解古文、繪畫中國風場景圖的能力令人震驚。我們知道ChatGPT主要做英文，中文是捎帶的，在您看來，為什么其仍具備比一些中國廠商做的語言大模型更強大的中文能力？

孫茂松：ChatGPT處理的空間實際上是語義空間，語義空間從自然語言處理的角度來說是相對穩定的，它跟不同的語言有關系，但核心部分是通用的。

英語的語料足夠大，覆蓋面比中文要好，質量也比較高，比如英語的論文能被用來訓練的會比中文多不少。因此通過英語的語言訓練，很好地刻畫了語義空間。語義空間和語言是相對獨立的，但又不完全獨立，這時候再用一些中文語料，相當于在語義空間里把中文和英文做某種對齊。這種情況下，它的主要能力是由英語帶過來的。

搜狐科技：中國現有的大模型似乎對中文的理解能力并不盡如人意，根據中文指令繪圖、寫作文的能力也不強，在您看來，該從什么方面去提升大模型中文理解和創作的能力？

孫茂松：高質量的語料庫還要想辦法去建設，比如像中文的科技論文庫之類的，能不能拿來用，這是一方面。另外的話，大模型真的要做到通用程度的話，英文能力要有，再去做中文，中文的話盡量要把語料再搞大一點。這樣可能會把能力進一步地提升，因為語言之間有很多是可以打通的。

搜狐科技：在您看來，AI是如何賦能基礎科學的發展的？

孫茂松：AI賦能科學研究我覺得天地遼闊，現在才是剛剛開始，努力耕耘的話，應該很快就有不錯的收獲。

搜狐科技：很多外界人士認為，做科研工作會較為枯燥，有可能很多年都難以做出突破性的成績，能否請您分享一下對于科研工作價值意義的理解？

孫茂松：如果你覺得科研枯燥，就請你不要做科研。一定要有興趣才來做，而不是把它簡單當成一份工作，有興趣就不會覺得枯燥，反而會覺得其樂無窮。

關鍵詞：

責任編輯：hn1007