close

 

EDVVE79465BRFREF5ECE

 

內容簡介

作者簡介

陳婉真

  台灣彰化人。曾任中國時報記者、立法委員、國大代表、南投縣政府社會局局長,現任社團法人台灣產業文化觀光推展協會理事長。

  曾創辦台灣第一份戒嚴時期下地下報「潮流」,常年參與台灣民主化運動,並因而流亡海外十年,是突破黑名單第一人。九七年擔任國代期間因獨排眾議,反對政黨合流修憲,與民進黨漸行漸遠,現專職從事非營利組織的工作。

張宏久

  陳婉真的獨子。因母親是黑名單,七歲返台時無法取得戶籍登記引起社會極大的同情。

  於2004年取得美國柏克萊加州大學政治及經濟學雙學位,並於2005年十月起,赴英國牛津大學繼續攻讀碩士,主修政治。

  本書是他在赴英國前與母親陳婉真合作完成。

詳細資料

  • ISBN:9578014880
  • 叢書系列:
  • 規格:精裝 / 普通級 / 全彩印刷 / 初版
  • 出版地:台灣
  • 本書分類:> >

 

 

之前我們曾經講過,無監督學習是一種不使用標記數據(無目標變量)的機器學習。因此,算法的任務是在數據本身中尋找模式。無監督機器學習算法的兩種主要類型分別是使用主成分分析的降維算法和聚類算法(包括K-Means和層次聚類算法)。下面將依次介紹這些內容。 主成分分析 降維是一種重要的無監督學習方法,在實踐中得到了廣泛的應用。當數據集中有許多特徵時,可視化地表示數據或將模型擬合到數據中可能會變得非常複雜。在這種情況下,可能需要降維。降維的目的是通過一組更小的特徵來表示具有許多(通常存在相關性)特徵的數據集,這些特徵仍然可以很好地描述數據。 主成分分析(PCA)是一種最常見降維統計方法。PCA將高度相關的多個數據特徵減少到幾個主要的、不相關的複合變量。複合變量是將兩個或多個在統計上緊密相關的變量組合在一起的變量。PCA涉及到特徵的協方差矩陣的變換,在這裡會有兩個關鍵的概念:特徵向量和特徵值。特徵向量定義了新的、相互不相關的複合變量,它們是原始特徵的線性組合。作為一個向量,一個特徵向量也代表著一個方向。與每個特徵向量相關的是一個特徵值。一個特徵值給出了初始數據中總方差的比例,該比例由每個特徵向量來解釋。PCA算法根據特徵值將特徵向量從高到低排序——也就是說,根據它們在解釋初始數據的總方差方面的有用性程度排序。主成分分析選擇解釋數據集中變化比例最大的特徵向量(特徵值最大的特徵向量)作為第一個主成分。第二主成分解釋了在第一主成分之後的下一個最大的方差比例;接著是第三、第四和其後的主要成分。由於主成分是初始特徵集的線性組合,通常只需要幾個主成分就可以解釋初始特徵協方差矩陣中大部分的總方差。 下表顯示了一個具有三個特徵的假設數據集,因此它是沿著x、y和z軸在三維空間中繪製的。每個數據點都有一個測量值(x、y、z)。首先我們將數據進行標準化,以便每個系列(x、y、z)的均值為0,標準偏差為1。假設我們通過PCA,得出了前兩個主成分,PC1和PC2。對於PC1,每個數據點到PC1的垂線距離表示投影誤差,平行於PC1方向上的每個數據點之間的距離表示數據沿PC1的變化或延伸。PCA算法通過選擇所有數據點的投影誤差之和最小,所有數據點之間的距離之和最大的直線來找到PC1。 作為結果,PC1是唯一的向量,它在初始數據的方差中占了最大比例。剩下的方差中,第二大部分由PC2來解釋,它與PC1成直角,因此與PC1不存在相關關係。現在,數據點由前兩個主成分表示。這個例子演示了PCA算法在降維方面的有效性。 ... 了解需要保留多少主成分非常重要,我們需要在複雜數據集的維度數量、信息丟失程度之間進行權衡。碎石圖(Scree plots),顯示了每個主成分解釋的數據中總方差的比例。在實踐中,應該保留的主成分的最小數量可以根據碎石圖判斷,一般要求所有主成分解釋初始數據總方差的85%到95%。 案例 DLC 500和VLC 30股票指數收益的主成分分析碎石圖 在本案例中,研究人員使用碎石圖發現,三個主成分足以解釋過去10年期間DLC 500和VLC 30股票指數的回報率。DLC 500是涵蓋所有行業大盤股的多元化指數,VLC 30則是30家最大的上市公司的指數。數據集包括指數價格和2000多種特徵。特徵之間的多重共線性是最重要的干擾因素,因為許多特徵或特徵組合往往存在著重疊問題。為了解決這個問題,我們使用PCA來捕獲數據中的信息和差異。下面的碎石圖顯示,在生成的20個主成分中,前3個主成分共解釋了DLC 500和VLC 30指數的90%和86%的方差。從碎石圖可以看出,在第5個主成分之後,解釋數據方差的增量貢獻都很小。因此,這些不太有用的主成分可以被忽略,不會丟失太多信息。 ...... 主成分分析的缺點是,由於主成分是數據集的初始特徵的組合,它們不能被分析人員輕鬆地解釋。與已經被定義好的變量數據相比,PCA的結果可能會被視為「黑箱」。 即使處理只有10個左右特徵的數據集時,將特徵的數量減少到最相關的幾個也非常有用。另外,降維有助於在二維或三維空間中可視化地表示數據。 主成分分析通常作為數據分析的一部分執行,然後用來訓練另一個監督或非監督學習模型。這樣,機器學習模型訓練的速度更快,傾向於減少過擬合的情況。 本文由「邊際實驗室」原創,轉載請務必註明出處。如果喜歡本文,請點轉發讓更多人看到。 原創不易,感謝您的支持! 更多原創文章: 有監督學習算法介紹:K近鄰與決策樹(分類與回歸樹) 懲罰回歸算法與支持向量機 有監督學習中防止過擬合的方法 算法的性能評估及過擬合 ...

 

 

 

 

 

文章來源取自於:

 

 

壹讀 https://read01.com/gRa6KG5.html

博客來 https://www.books.com.tw/exep/assp.php/888words/products/0010318613

如有侵權,請來信告知,我們會立刻下架。

DMCA:dmca(at)kubonews.com

聯絡我們:contact(at)kubonews.com


西屯憂鬱症治療有效中醫診所太平區大量出汗改善中醫診所大里淺眠或多夢改善中醫診所
台中腎臟功能異常治療中醫 神岡便秘或腹瀉治療有效中醫診所 Dcard推薦的中醫診所豐原肌肉疼痛改善中醫診所 大雅自律神經失調中醫推薦 最推薦的中醫診所神岡小兒過動看什麼科 南屯晚上淺眠看什麼科 治療有成效的中醫診所龍井壓力大改善中醫診所 西屯入睡困難治療有效中醫診所 這間中醫診所很大推

arrow
arrow
    全站熱搜

    twqd8zsfqn 發表在 痞客邦 留言(0) 人氣()