大數據分析入門- 心得報告

2024-09-19

文章推薦指數： 80 %

投票人數：10人

老師這次提供了一本有關大數據的書籍《BIG DATA, DATA MINING, AND MACHINE LEARNING》，作者是Jared Dean。

這本書前十章為大數據分析相關方法論，第十一 ... 大數據分析入門第四次讀書會心得2017-10-31 時間:2017-10-31二18:00-20:00 地點:清大工程一館807室導讀人:桑慧敏教授成員:蘇意筑、許峻銘、黃品皓、陳泰榮、吳俊慶、郭宗淵、紀俊宇、巫昇餘記錄人:蘇意筑、紀俊宇、巫昇餘一、討論紀錄: 1.   同學報告與老師回饋(同學報告之投影片請參見附錄) 3.1Retinex(報告人：郭宗淵) 老師回饋說Retinex與經學過的獨立成分分析(ICA)的精神。

至於兩者的相同與不同之處為何，仍然有待深入了解。

老師讚許宗淵把Retinex講得很清楚，若能以更精簡的頁數呈現會更好。

3.2大數據相關實務應用(報告人：紀俊宇)(因涉及公司機密所以投影片不公開) 最後一次讀書會，主要分享自己(紀俊宇)現在在職場上所遇到的各類問題，很有趣，每個問題都有著自己的屬性，我們可以嘗試著從各方面去挖掘出金礦。

報告的內容，可以讓大家發現Why數據科學家是21世紀「最性感的職業」，猶如一件衣服的誕生: 「我們有著一堆布料(原始資料)，我們開始規劃設計一件符合身材曲線的衣服(要求的目的)，我們決定需要用什麼布料去做各部件(資料的蒐集)，我們去掉多餘或不好的部分(資料的清洗)，我們裁剪布料(資料的取捨)，我們用各種工具去製作這件衣服(資料分析方法)，最後縫製出一件高品質且能襯托出個人品味的衣服(所求的目的)。

」為什麼要提這麼多次的我們，因為這些布料最終的成品是成為路邊攤呢或者是讓人眼睛一亮的藝術品，取決在「我們，如何去使用它們。

」 3.3封裝製程(報告人：巫昇餘)(因涉及公司機密所以投影片不公開) 最後一次讀書會，一開始我(巫昇餘)先講解半導體的製程主要可分成IC設計、晶圓製程、晶圓測試、晶圓封裝/測試，我主要分享了半導體封裝製程的介紹，讓學弟妹們了解實際工廠是如何運作，如何產生出小小一塊塊的IC晶片，且告訴大家IC晶片運用在什麼類型的產品上，我用簡單淺顯易懂的方式讓大家皆為了解，比喻一片PIZZA是如何製造出來，當然這生產過程中會面臨許多大大小小的問題，在報告中就略為概述，這需在實際現場中才會有所了解，此次的報告，也當作事研究生們職場前暖身的體會；期許學弟們未來在職場皆為一帆風順。

二、同學會後撰寫的心得感想: 1.   (蘇意筑) 很快地又到了第四次的讀書會。

一開始由宗淵報告CNN裡Retinex的介紹。

宗淵利用了衣服的顏色、蛋白的顏色介紹了色彩恆常性。

在說明Retinex其實就是色彩恆常性的原理，將顏色經過轉換後重新呈現色彩。

老師又聯想到曾經學過的獨立成分分析(ICA)，與Retinex的精神似乎很相近。

至於兩者的相同與不同之處為何，仍然有待我們深入了解。

這次的讀書會很歡喜也有兩位在職專班的學長準備了投影片來報告。

紀學長報告的是他在公司內做過與大數據分析相關的內容。

紀學長很用心地把所有的內容都帶來，很可惜由於時間的關係沒能聽到全部的內容。

紀學長在最後提到他與高層人員的對話，也呈現了其謙遜與感恩之心境。

巫學長則是介紹了其廠內的封裝製程，使我們不用走進工廠也能知曉工廠的作業流程。

從這次的讀書會我又學到不少的新知，也謝謝老師和我們分享她的想法，使我們能夠有更深入思考的機會與可能。

謝謝老師！ 2.   (許峻銘) 這是本學期第四次的讀書會，這次的讀書會有宗淵同學分享利用大數據進行影像辨識的基礎慨念，還有兩位工工所在職碩班的學長來分享平時工作上的製程介紹和數據分析帶來的價值。

近年來熱門的AI人工智慧應用中，影像識辨是一項重要的分支。

透過大量資料的訓練，可以讓電腦學習辨識不同的物體，進而讓電腦能夠自行判斷物件的屬性。

這項應用可以到自動駕駛車上(行車電腦自行判斷週遭的物件屬性)，也可以應用到醫療領域上(讓電腦取代醫生來辨別醫學影像，使得醫生能專注在診斷和分析的流程中)。

今日透過宗淵同學的介紹，我學習到了一個名為retinex強化影像的方法。

此方法可以讓我們過排除光線對物件本身的干擾，還原出物件與環境間的原始資訊。

另外兩位在職碩班的學長，則是分享了他們實際在業界的工作經驗和業界的資料，讓我們接觸到了教科書以外更真實的數據和利用數據來解決問題情況。

能夠在學校中就聽到、看到這麼多業界機密的數據和照片，覺得真的機會難得。

感謝他們無私的分享。

3.   (黃品皓) 今天是最後一次讀書會，聽了宗淵的精采報告之後，我對於Retinex(影像增強演算法)有了初步的認識，色彩恆常性的涵義其實就是說，物體的顏色是由物體本身對於各個不同波長光波的反射率所決定，而跟光源的光波長比例無關。

紀俊宇學長的報告讓我看到，在職場上應該要有的態度，即使老闆沒給你問題，也要積極的去找出問題，而且我對於他所提到的SAS的JUMP這個工具也很感興趣，待會就來查查看！最後巫昇餘學長的報告讓我初步了解到工廠封測的運作流程。

4.   (陳泰榮) 感謝昇餘學長、俊宇學長和宗淵同學這次辛苦的報告。

昇餘學長總結式的帶領我們瀏覽封裝製程的可能錯誤原因和各項流程的實際狀況，讓我們對於半導體封裝廠的運作和問題點都更加的了解，而俊宇學長則告訴我們現實上他是如何去尋找問題並解決的，從資料攫取到分析問題尋找解決方案，這使我們看見工程師是要如何主動挖掘情況，不會有人帶領，這是我們應該要多加學習的態度，只要我們能從中學習到十分之一，那便能大有長進。

宗淵同學則使我們得以更加了解資料前處理retinex是什麼及怎麼運作，他引用藍黑衣服還是白金衣服的例子，告訴我們色彩恆常性是什麼，在此之後才介紹retinex是以此為基礎去進行延伸處理，巧妙而簡單的介紹使我們能輕易的理解，同且將其中複雜的卷積運算、傅立葉轉換都省略不使我們受限於複雜的數學函式，再加上老師深刻而點睛的問答，實在使我們受用許多。

5.   (吳俊慶) 今天一開始宗淵同學先介紹CNN裡面的Retinex，首先他先舉了一個衣服的例子然後問我們說這個衣服是甚麼顏色，答案有黑藍跟白銀，接下來他告訴我們為什麼會有這兩個差別，原因是大腦有沒有白平衡，然後再切入到CNN應用於青光眼分析，資料做Retinex後，判斷特徵會更加明顯，然後老師問他們在做CNN時一張照片的判斷時間大概是多久，宗淵他們說平均一張大約是十分鐘，但無法跑超過三張圖，原因大概是判別區域太廣，老師提出來應該將醫生的判別區域取出來，減少判斷時間，並且嘗試用迴歸分析做出與簡單類神經網路的練習，後面緊接著是俊宇學長上台報告他在公司解決的案例，學長給我們最好的示範是我們平時在做的事情大部分都是手的工作，但是俊宇學長能夠發現產線上的問題，並且以有邏輯又正確的方法解決，並且還不忘感謝同仁，這是我們該學習的精神，昇餘學長替我們介紹日月光公司在做的事情，將公司內部產線，介紹非常清楚，我今天最大的體悟是我其實感到開心，能從俊宇學長的案例中看見何為思考並解決問題，就像老師說的發現問題，就已經將問題解決一半了，在老師的指導下我們一定會更加進步。

6.   (郭宗淵) 終於來到了最後一次的讀書會了，沒想到這次讀書會報告的人，在LAB之中只剩下我，讓我真是非常緊張，而受過老師那麼多的薰陶，讓我在準備投影片及報告時，不禁開始想，要怎樣才能像老師一樣講的簡單明瞭，以及要如何才能像老師一樣吸引全場的關注。

於是我便照著老師的基本要求，投影片做個5頁左右就好，要怎麼做的少又講的好，也真的是很困難的點。

所幸這次的主題滿好發揮的，而學習老師演講的方式也讓我的架構比較有邏輯性，也感謝老師在我報告中給我的指導，告訴我在什麼地方應該放慢語調。

這次兩位專班的學長也上台報告，也令我收穫良多。

平常老師告訴我們要先訓練好「手」的能力在訓練「腦」來解決問題，而俊宇學長就充分地為我們展現何謂手腦都訓練的結果，他不但SAS的jmp程式用的很好，也能想出方法解決問題。

而也感謝昇餘學長詳細為我們介紹製程。

總之這次讀書會是個完美的ending，也謝謝大家一直以來的參與，更謝謝老師無私的分享! 7.   (紀俊宇) 今天參加最後一次大數據讀書會，聽到成員們發表如何用類神經網路方法來幫助醫生提升判定青光眼的準確率，讓我覺得相當有趣。

青光眼的判讀對於每個醫生來說某種程度上存在著曖昧不清的模糊界線，影響因素可能為醫生的職業經驗長短及所判斷用的方法，為的避免這類因素的影響造成判斷的不一或不準，桑慧敏教授及其學生試圖運用類神經網路來解決此問題。

今天的亮點就是在職專班的數據分析及製程介紹，我自己也是其中之一，從另名同學的製程介紹讓我發現，雖然我們所在不同的產業，但製程卻有極高的相似度，而他們製程各站別會產生的Defects情況也跟我的產業很相似。

他所在的公司發展已久，系統伺服器中有著完整的製程rawdata，但卻沒有人會運用這些資料去檢視整廠的各站情況及需要或可以改善的部分，這點實在非常可惜。

尤其他們有這麼多廠，而且每廠做的又幾乎是相同的事，如果可以解決或改善其中一廠的問題，不就可以應用或去檢視到其他各廠了嗎?這帶來的總利益將會非常可觀，但卻需要有人教他們如何去做。

蘇意筑/2017-11-04 第三次讀書會心得2017-10-24 時間:2017-10-24二18:00-20:30 地點:清大工程一館807室導讀人:桑慧敏教授成員:蘇意筑、許峻銘、黃品皓、陳泰榮、吳俊慶、郭宗淵、紀俊宇、巫昇餘記錄人:蘇意筑一、討論紀錄: 1.   觀看實驗設計(Designofexperiment)之影片老師提供了幾分鐘講解實驗設計中「穩健設計」的英文影片。

穩健設計是田口主要的貢獻。

穩健設計與我們之前學的實驗設計差別在於，其考量了雜音因子(noisefactors)的效用。

穩健設計可以提供我們哪個主效用受雜音因子的影響小或大，使我們了解主效用與雜音因子間的關係。

2.   同學報告與老師回饋(同學報告之投影片請參見附錄) 3.1NeuralNetworkandBigData(報告人：蘇意筑) (1)對於整個報告主題，老師建議應該要問的問題是：機器學習和非機器學習的差別為何?(2)對於「WhatisthedifferenceamongBigData,NeuralNetwork,MachineLearning,DeepLearning,andArtificialIntelligence?」，老師建議一次只比較兩個東西就好，不同種類的東西也不要放在一起比較。

   3.2NeuralNetwork(NN)(報告人：黃品皓) (1)老師讚許同學在一開始提出了一個好問題「WhydoweuseNeuralNetwork?」，但同學對於這個問題沒有提出較好的答案。

(2)同學報告中特別解釋在上次讀書會有提到之「Overfitting」，並舉例說明。

而「Overfitting」在類神經網路裡面以「LossFunction」表示。

(3)老師說明，類神經網路就是很多層的迴歸模型，因為太多層了，已經無法用數學式寫出來，也無法從output回推得到input，所以才會稱類神經網路為所謂的「黑箱」。

若是類神經網路只有一層，其實應與我們以前所學的迴歸模式預測資料方式相同，同學可當作練習並驗證之。

(4)「類神經網路的輸入值介於0~1之間」的原因為何，尚待解釋。

   3.3ConvolutionalNeuralNetwork(CNN)(報告人：陳泰榮) 老師說明其實所謂的CNN的C，就是智慧型資料轉換的意思。

與NN的差別就在於CNN先對資料做了轉換，再套用NN的架構。

老師一語點出CNN與NN的差異之處。

二、同學會後撰寫的心得感想: 1.   (蘇意筑) 對於我的報告，老師的回饋是『大數據分析有2種方法，一種是統計方法，一種是機器學習。

統計方法就是以機率模式或模型，將世界作為母群體來看待。

我應該有更好的問題要問，例如：「機器學習與非機器學習的差別為何」。

另外，每次比較2種東西就好，且要同類同層的東西比較才會有意義。

』   老師在上一次讀書會就提到過大數據分析有統計方法與機器學習，只是當時我沒有完整記下這句話，所以在做投影片的時候仍然對大數據和方法間的認知不夠清楚。

雖然沒有報告得很好，但至少我釐清了我納悶很久的問題「大數據和類神經網路的關係」，大數據就是我們要分析的資料，類神經網路是分析方法的一種，主要應用於將資料分類。

而我接下來要繼續理解機器學習與非機器學習的差別為何。

2.   (許峻銘) 這是本學期第三次的讀書會，本次讀書會桑老師帶領我們欣賞一段有關實驗設計(Designofexperiment)的影片，學習實驗設計的內涵。

接著由讀書會成員來報告他們研究近年很熱門的類神經網路。

類神經網路可用來建構較為複雜(例如非線性)的模型，主要的精神是透過選擇不同的層數和神經元數量，反覆試誤找出一個較佳的配適組合。

其中在圖像辨識領域又以卷積類神經網路(ConvolutionNeuralNetwork)效能較佳。

而所謂卷積類神經網路的差異則是在於原始資料需先經過卷積這道手續，再將經處理後的資料放入類神經網路中進行後續的建模。

類神經網路的慨念雖然看起來並不複雜，但要如何應用到實務上，我想我會找時間先從小型簡易的範例開始練習，讓自己更進一步瞭解項工具。

感謝這次讀書會同學的分享，讓我對一個熱門但陌生的工具有了多一些的認識。

3.   (黃品皓) 今天的讀書會有4項收穫： 1.今天的開場我們在討論之前去參加大數據比賽的心得，其中有兩組的題目是比較不一樣的，但光從比賽現場的簡報來看只能說是有趣，具體如何應用不知道，對於他們的論文我其實挺好奇的。

2.之後老師帶著我們看了一部在解說實驗設計的影片，一方面也訓練我們的英文聽力。

3.今天我報告了NN(類神經網路)，經由老師的指導後發現了還有很多能夠改進的地方！ 4.其實數據處理的邏輯都是一樣的，其中共同的核心價值之一就是對資料做「智慧型轉換」 4.   (陳泰榮) 這次讀書會報告經過老師的講評我又知道如何去精進自己的簡報能力，同且聽聞老師的勸言，我也明白到該要如何去爭取表現的機會，畢竟在這個社會上，你要如何讓人看見你，最快的方法就是自己站起來，當大家都在坐的時候你站起來就特別明顯，而這也是我們將來出社會時最重要的一點，再來老師還提到簡報切中要點的厲害之處，若是我們想要進行教學就需要去除干擾主軸的支線，使自己所要表達的東西直接傳遞給聽眾們，實在很感謝老師。

再來學長們對於我們的諫言，也讓我回味許久，不努力或許不會怎樣，但是努力就有可能可以怎樣。

能者多勞，勞者多能，有作雖累，但是這些都會成為我們的血脈，這些努力構建了我們的知識，當有人檢驗時，有真正做事的人，才會真正通過，反之一直打混摸魚的，遲早會出事，這是我要像學長學習並致謝的事。

最後也要感謝一下意筑，讀書會的雜事和主持都要麻煩於他，多虧了他我們省下許多麻煩。

   5.   (吳俊慶) 今天讀書會開始我們先看一題全英文的實驗設計題目，看完後老師替我們解答，之後老師便開始分享最近一次出去比賽的小組分享出去比賽的心得，在分享的過程當中我學到很重要的一點是，要懂得替自己爭取機會。

接下來讀書會報告就正式開始，今天第一位報告者是意筑，要介紹的是大數據與類神經網路的關係，主要的重點是類神經網路可使用大數據來提升預測與判斷的準確性。

再來是由品皓報告類神經網路，第一問是為什麼要用類神經網路?為什麼不用其他方法?他以房地產來舉例如果你要幫助不動產經理人,對不同房屋進行估價。

考慮到價格與生活空間大小、儲藏室大小、屋齡、等等皆有關,請問要如何推論適當的房屋價格?然後比較SVM、線性方程式和類神經網路，當中我們討論到類神經網路和迴歸的關係，老師提出，類神經網路可能就是一個很複雜的迴歸，這邊老師出了一個功課，要我們用類神經網路分析一個簡單的題目，再利用迴歸式去驗證它。

   6.   (郭宗淵) 這次的讀書會也是受益良多，老師一開始語重心長的教導我們該如何把握機會，令我發現我作為一個學習者的態度是多麼的不積極，也感謝老師將我們當作自己的孩子般教導。

接下來我們看了一個有關實驗設計(DesignofExperiment,DOE)的英文影片，雖然只有影片的時間不長，但是我實在是聽不太懂影片的內容，所幸老師後來有為我們講解，而老師只花了2~3分鐘便將影片整個架構解釋得很清楚，真的是令我佩服的五體投地。

最後到了這次的報告，品皓的報告十分令人驚艷，投影片的架構十分有邏輯性，而他所提出的問題及講解也都淺顯易懂且有架構，我想我們都應該向他好好學習。

也因為我這次的投影片做的不是很好，要講的內容順序顛倒，架構不對，因此讓聽眾對於我們要講解的內容有點混淆，我想這就是我需要好好改善的地方，也希望我在下次的讀書會能夠更進步。

   7.   (紀俊宇) 今天參加大數據讀書會，過程中得知組員及教授所組的團隊「二十不惑」參加106暑假【低壓智慧電表大數據分析與設計競賽】-研析組，並贏得第二名，恭喜。

猶記在中秋節的當天，第一次參加讀書會時聽到組員參加此競賽，在讀書會的過程中開始介紹取得了什麼資料及如何分析這些用電戶的行為模式，經過一層層及解構的方式(小波轉換)，最終將原本看起來雜亂無章的BigData理出了一個條理分明的用電戶行為類型，得到此結果可以應用到預測未來的用電量，並藉此預估是否有用電危機，在反核的聲浪中更加重要，切中時事並做到學以致用。

另一個讓人記得的事是教授播放了一部英文短片，影片內容是實驗設計，探討如何對影響因素做適當的實驗安排，最後由小組成員發表影片心得，透過:分享，討論，影片，朗誦，做到面面俱的多方面的學習。

蘇意筑/2017-11-01 第二次讀書會心得2017-10-11 時間:2017-10-11三16:30-18:30 地點:清大工程一館807室導讀人:桑慧敏教授成員:蘇意筑、許峻銘、黃品皓、陳泰榮、吳俊慶、郭宗淵、紀俊宇、巫昇餘記錄人:蘇意筑一、討論紀錄: 老師這次提供了一本有關大數據的書籍《BIGDATA,DATAMINING,ANDMACHINELEARNING》，作者是JaredDean。

這本書前十章為大數據分析相關方法論，第十一至十七章是案例分享。

我們預計從這本書的第十一章開始讀起，這次讀書會大家一起讀、一起討論第十一章。

下次讀書會開始，由一個人負責報告第十二章的重點，其他人則先預習第十二章，並在讀書會一起討論第十二章的內容。

下次讀書會除了討論書的內容，也會由同學報告大數據相關的方法論:「類神經網路(NN)」與「卷積類神經網路(CNN)」。

這次讀書會的進行方式是由每個人輪流唸書本第十一章的英文段落，並由老師帶領討論。

討論時老師問我們書籍裡的哪句話你覺得有道理，或你覺得沒道理，每個人提出一句來進行討論。

藉著討論，老師幫助我們了解第十一章的重點內容與此本書的可以再更言簡意賅的編寫方式。

詳細討論內容如下: 1. 「Thefinalphaseinthisstepistheassessmentofallthecandidatemodelstopickabestmodel…averagedsquarederror(ASE),misclassificationrate,andprofit」