Deepmind開發具有2,800億參數的語言模型Gopher,探索模型規模對效能的影響

Google旗下人工智慧研究公司Deepmind最近發表了,其中重要的論文包括訓練具有2,800億參數的語言模型Gopher,還提出一個改進的語言模型架構,來降低訓練模型的能源成本。

之所以DeepMind團隊致力於研究人工智慧的語言處理和溝通,他們提到,語言是人類說明和促進理解的基本,能夠讓人們交流思想、表達想法、創造記憶並且相互理解,而這同時也是社交智慧的基礎部分。研究人員認為,開發更強大的語言模型,對於人工智慧系統的研究具有很大的潛力,能夠有效率地總結資訊、提供專家建議,並且以自然語言提供指引。

在DeepMind的新論文中,訓練了大大小小的Transformer語言模型,從4,400萬個參數到2,800億個參數的模型都有,最大的模型被命名為Gopher。研究人員透過調查這些不同大小模型的優勢和缺點,找出能夠藉由增加規模,繼續提高效能的領域,像是在閱讀理解、事實查核和有毒語言辨識上,而研究人員也發現,在邏輯推理和常識性任務中,模型的規模並無法明顯改善結果。

經過DeepMind的研究,他們發現Gopher的能力,在許多重要的任務上都超過現有的語言模型,例如大規模多任務語言理解(Massive Multitask Language Understanding,MMLU)基準測試,Gopher在許多方面都勝過當前先進的語言模型GPT-3和UnifiedQA,包括人性、社會科學和醫療等。

選擇好的茶葉罐,有效地保持茶葉的鮮度與風味!

茶葉罐的一般有錫製、鐵製、陶瓷、玻璃、紙製等,其中以選用有雙層蓋的鐵製彩色茶罐和長頸錫瓶為佳,用陶瓷器貯存茶葉,則以口小腹大者為宜。

臭氧機的滅菌效果如何?

多加科技公司,從事水處理、加水站設計規劃營運,以臭氧機、紫外線燈作水質淨化、殺菌設備,因臭氧機具強大氧化、殺菌、除臭能力,省電、無耗材費用,深受水處理業者採用

建南和著重於工業用機械手臂、工業型無線充電裝置、精密加工元件等產品之經銷、代理、進出口貿易

信泰電機生產製作:鋁殼電阻、繞線電阻、剎車電阻、煞車電阻

研究人員除了對Gopher進行定量評估之外,也透過實際互動探索模型,發現Gopher在被提示進行對話互動時,能夠提供良好的連貫性,即便開發人員沒有對特定對話微調,但是Gopher竟然可以討論細胞生物學,並且引用正確的文獻。

除了大模型帶來的優點之外,研究人員也探討了幾種在任何模型大小中,都持續存在的故障模式,諸如反覆傾向(Tendency for Repetition)、刻板印象和傳播不正確資訊。研究人員提到,這些研究之所以重要,是因為可以藉由理解和記錄故障模式,來進一步掌握大型語言模型對下游應用造成的危害,並且知道該朝哪個方向前進,來緩解這些問題。

除此之外,DeepMind還提出了一種改進的語言模型架構,該架構能夠降低訓練能源成本,並且使模型輸出更容易追溯至訓練語料庫中的來源。研究人員受大腦在學習時,仰賴專用記憶機制的啟發,開發出了RETRO(Retrieval-Enhanced Transformer),藉由使用網際網路規模的檢索機制,來預訓練模型,RETRO能夠有效地查詢文本段落來改進預測,並且透過將生成的文字和RETRO生成所仰賴的段落進行比較,研究人員可以解釋模型做出部分預測時的原因和來源。

https://www.ithome.com.tw/news/148273

票選推薦煮婦最愛手壓封口機,省荷包不犧牲品質

意信臻以 品質、信用、親切、迅速、優質售後服務,為公司的營運宗旨。

示波器探測執行效能最佳化的8大秘訣

瀚誼科技致力於提供示波器多元化的專業測試和解決方案,範圍涵括無線通訊系統、RF量測儀器設備、高頻配件、電子元件

【找人才】台北塑膠射出成型工廠徵選技師,薪資優,福利佳

射出成型機按外形特徵可分為立式、臥式、直角式、旋轉式和偏心式等多種,目前以臥式最為常用。