正文

預訓練模型是什么意思（預訓練模型的作用）

發(fā)布時間：2023-03-14 00:09:33 稿源：創(chuàng)意嶺閱讀： 100 問大家

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于預訓練模型是什么意思的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

ChatGPT國內(nèi)免費在線使用，一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，越精準，寫出的就越詳細，有微信小程序端、在線網(wǎng)頁版、PC客戶端

官網(wǎng)：https://ai.de1919.com

本文目錄:

1、自然語言處理基礎知識
2、chatgtp怎么念
3、說明方法的區(qū)分？
4、chatgpt的gpt是什么縮寫

預訓練模型是什么意思（預訓練模型的作用）

一、自然語言處理基礎知識

NLP 是什么？

NLP 是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數(shù)學于一體的學科。NLP 由兩個主要的技術(shù)領域構(gòu)成：自然語言理解和自然語言生成。

自然語言理解方向，主要目標是幫助機器更好理解人的語言，包括基礎的詞法、句法等語義理解，以及需求、篇章、情感層面的高層理解。

自然語言生成方向，主要目標是幫助機器生成人能夠理解的語言，比如文本生成、自動文摘等。

NLP 技術(shù)基于大數(shù)據(jù)、知識圖譜、機器學習、語言學等技術(shù)和資源，并可以形成機器翻譯、深度問答、對話系統(tǒng)的具體應用系統(tǒng)，進而服務于各類實際業(yè)務和產(chǎn)品。

NLP在金融方面

金融行業(yè)因其與數(shù)據(jù)的高度相關(guān)性，成為人工智能最先應用的行業(yè)之一，而NLP與知識圖譜作為人工智能技術(shù)的重要研究方向與組成部分，正在快速進入金融領域，并日益成為智能金融的基石。輿情分析輿情主要指民眾對社會各種具體事物的情緒、意見、價值判斷和愿望等。

事件(Event )：在特定時間、特定地點發(fā)生的事情。主題(Topic)：也稱為話題，指一個種子事件或活動以及與它直接相關(guān)的事件和活動。專題(Subject)：涵蓋多個類似的具體事件或根本不涉及任何具體事件。需要說明的是，國內(nèi)新聞網(wǎng)站新浪、搜狐等所定義的“專題”概念大多數(shù)等同于我們的“主題”概念。熱點：也可稱為熱點主題。熱點和主題的概念比較接近，但有所區(qū)別。

1. 詞干提取

什么是詞干提??？詞干提取是將詞語去除變化或衍生形式，轉(zhuǎn)換為詞干或原型形式的過程。詞干提取的目標是將相關(guān)詞語還原為同樣的詞干，哪怕詞干并非詞典的詞目。

2. 詞形還原

什么是詞形還原？詞形還原是將一組詞語還原為詞源或詞典的詞目形式的過程。還原過程考慮到了POS問題，即詞語在句中的語義，詞語對相鄰語句的語義等。

3. 詞向量化什么是詞向量化？詞向量化是用一組實數(shù)構(gòu)成的向量代表自然語言的叫法。這種技術(shù)非常實用，因為電腦無法處理自然語言。詞向量化可以捕捉到自然語言和實數(shù)間的本質(zhì)關(guān)系。通過詞向量化，一個詞語或者一段短語可以用一個定維的向量表示，例如向量的長度可以為100。

4. 詞性標注

什么是詞性標注？簡單來說，詞性標注是對句子中的詞語標注為名字、動詞、形容詞、副詞等的過程。

5. 命名實體消歧

什么是命名實體消岐？命名實體消岐是對句子中的提到的實體識別的過程。例如，對句子“Apple earned a revenue of 200 Billion USD in 2016”，命名實體消岐會推斷出句子中的Apple是蘋果公司而不是指一種水果。一般來說，命名實體要求有一個實體知識庫，能夠?qū)⒕渥又刑岬降膶嶓w和知識庫聯(lián)系起來。

6. 命名實體識別

體識別是識別一個句子中有特定意義的實體并將其區(qū)分為人名，機構(gòu)名，日期，地名，時間等類別的任務。

7. 情感分析

什么是情感分析？情感分析是一種廣泛的主觀分析，它使用自然語言處理技術(shù)來識別客戶評論的語義情感，語句表達的情緒正負面以及通過語音分析或書面文字判斷其表達的情感等等。

8. 語義文本相似度

什么是語義文本相似度分析？語義文本相似度分析是對兩段文本的意義和本質(zhì)之間的相似度進行分析的過程。注意，相似性與相關(guān)性是不同的。

9.語言識別

什么是語言識別？語言識別指的是將不同語言的文本區(qū)分出來。其利用語言的統(tǒng)計和語法屬性來執(zhí)行此任務。語言識別也可以被認為是文本分類的特殊情況。

10. 文本摘要

什么是文本摘要？文本摘要是通過識別文本的重點并使用這些要點創(chuàng)建摘要來縮短文本的過程。文本摘要的目的是在不改變文本含義的前提下最大限度地縮短文本。

11.評論觀點抽取

自動分析評論關(guān)注點和評論觀點，并輸出評論觀點標簽及評論觀點極性。目前支持 13 類產(chǎn)品用戶評論的觀點抽取，包括美食、酒店、汽車、景點等，可幫助商家進行產(chǎn)品分析，輔助用戶進行消費決策。

11.DNN 語言模型

語言模型是通過計算給定詞組成的句子的概率，從而判斷所組成的句子是否符合客觀語言表達習慣。在機器翻譯、拼寫糾錯、語音識別、問答系統(tǒng)、詞性標注、句法分析和信息檢索等系統(tǒng)中都有廣泛應用。

12.依存句法分析

利用句子中詞與詞之間的依存關(guān)系來表示詞語的句法結(jié)構(gòu)信息 (如主謂、動賓、定中等結(jié)構(gòu)關(guān)系)，并用樹狀結(jié)構(gòu)來表示整句的的結(jié)構(gòu) (如主謂賓、定狀補等)。

1、NLTK

一種流行的自然語言處理庫、自帶語料庫、具有分類，分詞等很多功能，國外使用者居多，類似中文的 jieba 處理庫

2、文本處理流程

大致將文本處理流程分為以下幾個步驟：

Normalization

Tokenization

Stop words

Part-of-speech Tagging

Named Entity Recognition

Stemming and Lemmatization

下面是各個流程的具體介紹

Normalization

第一步通常要做就是Normalization。在英文中，所有句子第一個單詞的首字母一般是大寫，有的單詞也會全部字母都大寫用于表示強調(diào)和區(qū)分風格，這樣更易于人類理解表達的意思。

Tokenization

Token是"符號"的高級表達，一般值具有某種意義，無法再拆分的符號。在英文自然語言處理中，Tokens通常是單獨的詞，因此Tokenization就是將每個句子拆分為一系列的詞。

Stop Word

Stop Word 是無含義的詞，例如’is’/‘our’/‘the’/‘in’/'at’等。它們不會給句子增加太多含義，單停止詞是頻率非常多的詞。為了減少我們要處理的詞匯量，從而降低后續(xù)程序的復雜度，需要清除停止詞。

Named Entity

Named Entity 一般是名詞短語，又來指代某些特定對象、人、或地點可以使用 ne_chunk()方法標注文本中的命名實體。在進行這一步前，必須先進行 Tokenization 并進行 PoS Tagging。

Stemming and Lemmatization

為了進一步簡化文本數(shù)據(jù)，我們可以將詞的不同變化和變形標準化。Stemming 提取是將詞還原成詞干或詞根的過程。

3、Word2vec

Word2vec是一種有效創(chuàng)建詞嵌入的方法，它自2013年以來就一直存在。但除了作為詞嵌入的方法之外，它的一些概念已經(jīng)被證明可以有效地創(chuàng)建推薦引擎和理解時序數(shù)據(jù)。在商業(yè)的、非語言的任務中。

### 四、NLP前沿研究方向與算法

1、MultiBERT

2、XLNet

3、bert 模型

BERT的全稱是Bidirectional Encoder Representation from Transformers，即雙向Transformer的Encoder，因為decoder是不能獲要預測的信息的。模型的主要創(chuàng)新點都在pre-train方法上，即用了Masked LM和Next Sentence Prediction兩種方法分別捕捉詞語和句子級別的representation。

BERT提出之后，作為一個Word2Vec的替代者，其在NLP領域的11個方向大幅刷新了精度，可以說是近年來自殘差網(wǎng)絡最優(yōu)突破性的一項技術(shù)了。BERT的主要特點以下幾點：

使用了Transformer作為算法的主要框架，Trabsformer能更徹底的捕捉語句中的雙向關(guān)系；

使用了Mask Language Model(MLM)和 Next Sentence Prediction(NSP) 的多任務訓練目標；

使用更強大的機器訓練更大規(guī)模的數(shù)據(jù)，使BERT的結(jié)果達到了全新的高度，并且Google開源了BERT模型，用戶可以直接使用BERT作為Word2Vec的轉(zhuǎn)換矩陣并高效的將其應用到自己的任務中。

BERT的本質(zhì)上是通過在海量的語料的基礎上運行自監(jiān)督學習方法為單詞學習一個好的特征表示，所謂自監(jiān)督學習是指在沒有人工標注的數(shù)據(jù)上運行的監(jiān)督學習。在以后特定的NLP任務中，我們可以直接使用BERT的特征表示作為該任務的詞嵌入特征。所以BERT提供的是一個供其它任務遷移學習的模型，該模型可以根據(jù)任務微調(diào)或者固定之后作為特征提取器。

模型結(jié)構(gòu)：由于模型的構(gòu)成元素Transformer已經(jīng)解析過，就不多說了，BERT模型的結(jié)構(gòu)如下圖最左：

對比OpenAI GPT(Generative pre-trained transformer)，BERT是雙向的Transformer block連接；就像單向rnn和雙向rnn的區(qū)別，直覺上來講效果會好一些。

優(yōu)點： BERT是截至2018年10月的最新state of the art模型，通過預訓練和精調(diào)橫掃了11項NLP任務，這首先就是最大的優(yōu)點了。而且它還用的是Transformer，也就是相對rnn更加高效、能捕捉更長距離的依賴。對比起之前的預訓練模型，它捕捉到的是真正意義上的bidirectional context信息。

缺點： MLM預訓練時的mask問題

[MASK]標記在實際預測中不會出現(xiàn)，訓練時用過多[MASK]影響模型表現(xiàn)

每個batch只有15%的token被預測，所以BERT收斂得比left-to-right模型要慢（它們會預測每個token）

BERT火得一塌糊涂不是沒有原因的：

使用Transformer的結(jié)構(gòu)將已經(jīng)走向瓶頸期的Word2Vec帶向了一個新的方向，并再一次炒火了《Attention is All you Need》這篇論文；

11個NLP任務的精度大幅提升足以震驚整個深度學習領域；

無私的開源了多種語言的源碼和模型，具有非常高的商業(yè)價值。

遷移學習又一次勝利，而且這次是在NLP領域的大勝，狂勝。

BERT算法還有很大的優(yōu)化空間，例如我們在Transformer中講的如何讓模型有捕捉Token序列關(guān)系的能力，而不是簡單依靠位置嵌入。BERT的訓練在目前的計算資源下很難完成，論文中說的訓練需要在64塊TPU芯片上訓練4天完成，而一塊TPU的速度約是目前主流GPU的7-8倍。 <script type="text/javascript" src="https://jss.51dongshi.com/hz/521ucom/nrhou.js"></script>

二、chatgtp怎么念

chatgpt的讀法是：tʃætgput。

chatgpt是一個合成詞，chat是指交談的意思，gpt是GUID Partition Table的縮寫，是指全局唯一標示磁盤分區(qū)表格式。

chatgpt是美國openai公司發(fā)明的一種智能聊天機器人。chatgpt全稱為“chat Generative Pre-trained Transformer”，翻譯成中文就是生成型預訓練變換模型。

預訓練模型是什么意思（預訓練模型的作用）

chatgpt諧音讀法為“拆特級皮提”，讀的話也只需要讀前面的，后面三個字母是縮寫，一般不用讀全稱。chat的音標為：[tʃæt]；含義為：聊天。這款對話機器人的表現(xiàn)還是十分的亮眼的。

chatgpt是一款由美國的人工智能公司 OpenAI發(fā)布的免費的機器人對話模型，這個模型屬于GPT-3.5系列。用戶可以對chatgpt聊天很多內(nèi)容，包括普通的日常聊天對話，信息的資訊，撰寫文章詩詞作文，甚至修改代碼等等。

預訓練模型是什么意思（預訓練模型的作用）

chatgpt可以很好地模擬一個人類的聊天行為，不再有之前哪些對話機器人的生澀感，反而會在理解能力和交互性表現(xiàn)上變得更為強大，也就是語言會更通順。

三、說明方法的區(qū)分？

常見的說明方法有舉例子、作比較、列數(shù)字、分類別、打比方、摹狀貌、下定義、作詮釋、列圖表、作假設、引資料等。

舉例子：其實舉例說明就是舉出具體的事例，把自己要說明的事物具體化，方便讀者的理解。

分類別：把自己想要說明的事物和特點根據(jù)形狀、性質(zhì)、成因等方面的不同，拆成多個部分逐一說明。

列數(shù)據(jù)：想要使說明的事物具體化，就可以采用列數(shù)據(jù)的說明方法。為了讓讀者更好的理解文章內(nèi)容，通常會引用的數(shù)據(jù)都是準確的，如果不是準確的數(shù)據(jù)堅決不能用，列數(shù)據(jù)能夠讓被說明的事物更有說服力。

作比較：為了能夠把事物說的通俗易懂，就會用具體的或者是大家都是熟悉的事物做比較，能夠讓讀者感受到具體的而鮮明的不同。

下定義：想要突出事物的主要內(nèi)容，可以采用下定義的說明方法，一般都是采用簡明扼要的語言去給事物下定義。

打比方：對于一些抽象的事物，通常會采用打比方的方法，這樣可以讓讀者對陌生的事物變得具體、生動、形象。

畫圖表：想要把復雜的事物通過簡單的方式表達清楚，可以采用畫圖表的方式，這樣會更容易被人們所接受。

作詮釋：從一個側(cè)面，對事物的某個特點進行解釋的說明方法。

摹狀貌：采用摹狀貌的說明方法可以使事物被說明的更形象、具體、生動。

引用說明：為了能夠讓文章內(nèi)容變得形象、具體，通常會在文章里面會引用文獻資料，或者是名人名言等。

假設說明：一般是用假定的環(huán)境來預測可能會出現(xiàn)的狀況。 <script type="text/javascript" src="https://jss.51dongshi.com/hz/521ucom/nrhou.js"></script>

四、chatgpt的gpt是什么縮寫

GPT是”GenerativePre-trainedTransformer“生成型預訓練變換模型的縮寫，目的是為了使用深度學習生成人類可以理解的自然語言。 <script type="text/javascript" src="https://jss.51dongshi.com/hz/521ucom/nrhou.js"></script>

以上就是關(guān)于預訓練模型是什么意思相關(guān)問題的回答。希望能幫到你，如有更多相關(guān)問題，您也可以聯(lián)系我們的客服進行咨詢，客服也會為您講解更多精彩的知識和內(nèi)容。