[轉錄]情緒分析(Sentiment Analysis)的作法與商業價值

來源:http://dataology.blogspot.tw/2015/04/sentiment-analysis.html

情緒分析(Sentiment Analysis)是繼文字探勘(Text Mining)之後,近年被熱烈討論的議題。過去學者普遍探討的是如何把一句話非結構化轉結構化的方法,像是各式演算方法,包含監督式學習(Supervised learning)半監督式學習(Semi-supervised learning)非監督式學習(Unsupervised learning)方法都有大量討論,各種文字探勘工具也應運而生,現在透過R、Python也都能很快做到這些事情。

我們隨著學者的腳步,可以發現隨著時代演進,解析文字的科技發展,在20年間有很快速的變動。從最早的網頁資料探勘(Web Data Mining)、文字探勘(Text Mining),慢慢的演進到近10年討論的情緒探勘(Sentiment Analysis)與意見探勘(Opinion Mining),再到這2年的情緒分析系統(Sentiment Analysis System)這樣的議題,都是為了要解決我們大量文字的閱讀需求,因為人類每一天不斷產生文字與內容已經超乎我們想像。

要如何從大量文字裡面掏金,有幾個步驟非常重要,筆者整理如下:

1.選定目標
2.爬文解析
3.斷字斷句(非結構化轉結構化)
4.情緒分析
5.資料視覺化

粗略上面的步驟,都有個別的議題需要討論。從1、2、3、5步驟都有現成工具可以使用,最難的反而是第4的步驟「情緒分析」。

針對「情緒分析」筆者在有限的時間下,整理這10年大部分學者所做的幾個方法
,供有興趣的朋友參考:

1.基於文件為基礎的情緒分類(Document-based sentiment classification)
2.以主觀的概念做情緒分析(Subjectivity and sentiment classification)
3.以外觀(屬性)為基礎的情緒分析(Aspect‐based sentiment analysis)
4.建立情緒字彙的情緒分析(Lexicon‐based sentiment analysis)

還有其他關於情緒分析有趣的議題,包含從2005年開始有學者針對線上評論的評等預測(Review rating prediction)、2006年有學者開始研究意見比較(Comparative opinions)、以及2007年開始有學者研究意見垃圾偵測(Opinion spam detection)等。

這些方法的重點都是要嘗試從大量的文字中,辨識出正面負面等情緒,好讓這些結果產生出商業價值,但事實上還是有許多問題需要被解決,包含像是特殊的嘲諷句子,如:「這手機很棒,我從來都無法開機。」以及像是中文文法、日文文法等等問題,因此做的精準做得好,還需要投入大量的資源與成本,更重要的是要跨領域,包含找中文系、英文系等熟稔語言的專家,加入一些修辭學的概念等等,甚至是筆者同事建議的語音、圖像辨識專家,因為在大數據的時代講究的是跨領域的整合,單從文字上解析的變數還不夠,還需要更多元的資料,才能做得更好。

綜觀來說,情緒分析的商業價值,除了可以提早了解顧客對於產品或公司的觀感,進而調整營運策略方向在產品銷售的途中,也可以捕捉顧客對於產品的體驗。筆者也曾使用類似的方法協助某企業了解他們顧客對於產品的評價狀況。筆者同事也曾上述方法進行服貿事件的文字解析。不管在銷售前、銷售後,企業在了解市場的方法上,除了問卷,透過情緒分析我們有值得參考的新選擇。

 

發表於 電腦資訊 | [轉錄]情緒分析(Sentiment Analysis)的作法與商業價值 已關閉迴響。

[轉錄]Word2Vec – 以 gensim 訓練中文詞向量

來源:http://zake7749.github.io/2016/08/28/word2vec-with-gensim/

Word2Vec
很顯然,一個詞的意涵跟他的左右鄰居很有關係,比如「雨越下越大,茶越充越淡」,什麼會「下」?「雨」會下,什麼會「淡」?茶會「淡」,這樣的類比舉不勝舉,那麼,若把思維逆轉過來呢?

顯然,我們或多或少能從左右鄰居是誰,猜出中間的是什麼,這很像我們國高中時天天在練的英文克漏字。那麼問題來了,左右鄰居有誰?能更精確地說,你要往左往右看幾個?假設我們以「孔乙己 一到 店 所有 喝酒 的 人 便都 看著 他 笑」為例,如果往左往右各看一個:
[孔乙己 一到] 店 所有 喝酒 的 人 便 都 看著 他 笑
[孔乙己 一到 店] 所有 喝酒 的 人 便 都 看著 他 笑
孔乙己 [一到 店 所有] 喝酒 的 人 便 都 看著 他 笑
孔乙己 一到 [店 所有 喝酒] 的 人 便 都 看著 他 笑
……

這樣就構成了一個 size=1 的 windows,這個 1 是極端的例子,為了讓我們看看有停用詞跟沒停用詞差在哪,這句話去除了停用詞應該會變成:
孔乙己 一到 店 所有 喝酒 人 看著 笑

我們看看「人」的窗口變化,原本是「的 人 便」,後來是「喝酒 人 看著」,相比原本的情形,去除停用詞後,我們對「人」這個詞有更多認識,比如人會喝酒,人會看東西,當然啦,這是我以口語的表達,機器並不會這麼想,機器知道的是人跟喝酒會有某種關聯,跟看會有某種關聯,但儘管如此,也遠比本來的「的 人 便」好太多太多了。

 

model = word2vec.Word2Vec(sentences, size=250)

class gensim.models.word2vec.Word2Vec(sentences=None, size=100, alpha=0.025, window=5, min_count=5, max_vocab_size=None, sample=0.001, seed=1, workers=3, min_alpha=0.0001, sg=0, hs=0, negative=5, cbow_mean=1, hashfxn=<built-in function hash>, iter=5, null_word=0, trim_rule=None, sorted_vocab=1, batch_words=10000)

 

sentences:當然了,這是要訓練的句子集,沒有他就不用跑了
size:這表示的是訓練出的詞向量會有幾維
alpha:機器學習中的學習率,這東西會逐漸收斂到 min_alpha
sg:這個不是三言兩語能說完的,sg=1表示採用skip-gram,sg=0 表示採用cbow
window:還記得孔乙己的例子嗎?往左往右看幾個字的意思,印象中原作者論文裡寫 cbow 採用 5 是不錯的選擇
workers:執行緒數目,除非電腦不錯,不然建議別超過 4
min_count:若這個詞出現的次數小於min_count,那他就不會被視為訓練對象

 

發表於 程式設計, 電腦資訊 | [轉錄]Word2Vec – 以 gensim 訓練中文詞向量 已關閉迴響。

[轉錄]監督式(supervised)與非監督式(unsupervised)的統計學習

來源:http://tomatokafka.pixnet.net/blog/post/112072243-%E7%9B%A3%E7%9D%A3%E5%BC%8F(supervised)%E8%88%87%E9%9D%9E%E7%9B%A3%E7%9D%A3%E5%BC%8F(unsupervised)%E7%9A%84%E7%B5%B1%E8%A8%88

來源:http://mropengate.blogspot.tw/2015/05/ai-supervised-learning.html

來源:http://tzanfeng.pixnet.net/blog/post/25614373

監督式(Supervised)的統計學習,談的是在已知的一些資料輸入(input data in terms of specific characteristics)項目後,能夠透過模型與對應關係的建構得到可以預期或是有預測能力的特定資料輸出(predictive output),這樣的學習過程被稱之為監督式的統計學習,因為我們能夠透過模型與變數間相對關係的界定去了解變化的情況;簡單的說,就是透過這樣的資訊解析過程,了解其中資訊的變化,並進行相關資訊的萃取與解讀。

非監督式(Unsupervised)的統計學習,討論的則是在給定相關資料輸入(data input)之後,我們透過適當的資料處理與聚合讓資料替自己說話,透過輸入資料的形式(可能是連續變數的衡量,也可能是類別資料的型態),來呈現出資料之間彼此相關的程度,但是對於資料輸出的情況是無法預測,也不可能在事前因為對過往模型的熟吝而有相關的預測能力者,資料最後輸出的型態完全取決於目前手邊資料自身的特性與型態,而我們只是透過特定的邏輯與方法,來呈現資料自身原來的樣貌,這樣的學習過程被稱之為非監督式的統計學習。

=======================================================

監督學習 (Supervised learning):從給定的訓練數據集中學習出一個模式(函數 / learning model),當新的數據到來時,可以根據這個模式預測結果。監督學習的訓練集要求是包括輸入和輸出,也可以說是特徵和目標。訓練集中的目標是由人標註的。常見的監督學習算法包括回歸分析和統計分類。

非監督學習 (unsupervised learning):與監督學習相比,訓練集沒有人為標註的結果。常見的無監督學習算法有聚類。

半監督學習 (Semi-supervised learning):介於監督學習與無監督學習之間。

增強學習 (reinforcement learning):通過觀察來學習做成如何的動作。每個動作都會對環境有所影響,學習對象根據觀察到的周圍環境的反饋來做出判斷。

======================================================

機器學習又分為監督式學習(supervised Learning)、非監督式學習(Unsupervised Learning)與加強式學習(Reinforcement Learning)。監督式與非監督式的差別在於有無訓練資料

 

發表於 電腦資訊 | [轉錄]監督式(supervised)與非監督式(unsupervised)的統計學習 已關閉迴響。

[轉錄]每天運動多久最好

來源:http://www.jiankanghou.com/wenda/10187.html

每天運動多久最好
「生命在於運動」,每個人都需要一定的運動量來維持身體的健康,但是運動也需要一個度,運動時間過長,運動量過大同樣不利於身體健康。那麼,我們每天運動多久最好呢?

每天運動多久最好

1
一個人的最適宜運動量,與性別、年齡及自身的身體條件有很大關係。普通人以鍛煉身體為目的,單次運動的時間不超過2小時最好。

10-18歲青少年運動時間
青少年正是長身體的時候,需要多多運動,這樣可以促進身體新陳代謝,幫助青少年長高。運動時間每天不得少於1小時。

注意:青少年不宜長期進行負重類型的運動,比如舉重。

20-40的年輕人每天運動時間
通常年輕人生命力旺盛,精力較好,但是由於工作原因,很多人都極度缺乏運動,或者不一定每天都有時間運動,所以建議年輕人一周至少運動3次,每次運動時間控制在1-2小時為宜。

60歲以上老年人運動時間
老年人身體狀況相對較差,不需要每天進行劇烈的體育運動,最好以散步、太極或者慢動作的舞蹈運動為宜。運動時間以0.5-1小時為宜,年紀較大,身體狀況較差的老年人,可以在晚飯半小時後散散步,時間以身體微感疲憊,不喘氣為度。

想減肥每天運動多久

2
運動減肥主要的目的是幫助燃燒多餘的卡路里,但是如果運動過度,則容易產生飢餓感,促使人攝取更多的卡路里。有研究顯示,每天慢跑30分鐘以上是最利於瘦身的,一次強力訓練的時刻不超越30分鐘,這樣不會產生太強烈的飢餓感。

想練肌肉每天運動多久

3
想鍛煉肌肉,單次運動時間最多兩個小時就好了,練一天休息一天效果是最好的,但是練習時間間隔不要超過三天,否則鍛煉的效果會大打折扣。

 

發表於 轉錄文章 | [轉錄]每天運動多久最好 已關閉迴響。

[轉錄]何謂第二類電信

來源:http://ithelp.ithome.com.tw/questions/10154917

簡單講:固網業者都是第一類,行動業者也是,早期的無線傳呼(BBcall)業者也是。後來BBcall業者已經退出市場了,所以一類就剩上述2種。
二類業者雖因執照類型無法自行佈電路,但因常與多家業者都有介接,在往來之中會有價差,這就是二類業者可以提供較便宜的方案給客戶的原因。

此外,二類業者的方案規劃及相關使用部份,通常較固網來的有彈性,服務也比固網來的好,雖然電路仍為一類,但中間的服務商會幫客戶連絡處理到好,所以不見得直接申請一類業者的服務就會比較好喔…提供您參考

 

二類電信就是提供服務..比如..上網, 語音(國際電話), 視訊…等等
一、二類電信所提供的服務內容會有重疊,這時後就是比費用、比品質囉.
就簡單來說 IP Phone, 並不是所有的一類電信業者都有提供這樣的服務
所以你就只有找二類電信業者。
而且承租電路只能找一類電信業者,二類電信業者是沒有提供電路租用業務的。

 

發表於 電腦資訊 | [轉錄]何謂第二類電信 已關閉迴響。

win10如何設定一開機後就自動開啟軟體?

把你要執行的程式放進下列資料夾

C:\Users\你的使用者名稱\AppData\Roaming\Microsoft\Windows\Start Menu\Programs\Startup

 

發表於 電腦資訊 | win10如何設定一開機後就自動開啟軟體? 已關閉迴響。

[轉錄]想要每次簡報都讓觀眾捨不得眨眼嗎?

來源:https://www.bnext.com.tw/article/42970/9-steps-make-a-attractive-ppt

想要每次簡報都讓觀眾捨不得眨眼嗎?試試看牛津大學的簡報9步驟

by 經理人月刊 2017.01.31
NASA Goddard Space Flight Center via Flickr
從醫學角度來看,人類通長只能專注40至50分鐘,而且每15分鐘就會走神一次,那麼要如何讓聽眾將注意力集中在台上的簡報呢?本文整理牛津大學的9步驟!
小時候上課,一定會遇那種老師在台上講的口沫橫飛,台下卻睡得一塌糊塗的情況。怎麼也想不到,長大後需要上台簡報,同樣的情形竟然發生在自己身上,這難道是所謂的「因果循環、報應不爽?」

好險事實並非如此。聽眾會忍不住走神,主要是因為簡報者沒有妥善分配聽眾的「專注力」。從醫學的角度來看, 人類通常只能專注40至50分鐘,而且每15分鐘會走神一次 。

所以只要講者好好規劃簡報節奏,就能讓簡報高潮不斷,聽眾聽的津津有味。牛津大學教育學研究所將其如何教導老師把課上的好玩的方法公開,以30分鐘的對話為例,制定簡報9步驟:

_
事前準備

Step1 目的:決定說話的「目的=目的地」

大家都有被推銷的經驗,最擔心的就是那種一開始跟妳談天說地,但你明明知道他的下一步要幹嘛,可是就是不知道什麼時候要出招。那種煎熬,體驗過的人都懂。簡報也一樣,事先就要想好交談主旨,最好一句話就能解釋,如「我想加薪」。

Step2 理解:認識說話對象

想好交談主旨後,你得依照對象,像是主管、下屬,或是客戶,調整說話方式。要站在對方的立場,儘可能做好事前的預測。

Step3 方法:選擇配合對方程度的說話方式

有的人習慣說話夾雜一些英文、有的主管喜歡「聽」部屬說話、有些主管喜歡「看」實際資料。為了讓對方理解自己說話的目的,事前必須選擇和準備好最佳的表達方式。

_
上半場十五分鐘:實際傳達主題

Step1 傳達主題:提出目的與所需時間(限時:1分鐘)

在一開始說話就明確提出想傳達的主題,像是「接下來想談談關於OOO的事。(我想談談關於加薪的事…);此外,再開始表達前先告訴對方預計會花多少時間,能使對方靜下心來,仔細聆聽。最好具體一點,可以以五分鐘為一個單位。

Step2 整體要點:提出明確重點(限時:2分鐘)

蘋果電腦創辦人賈伯斯演說就常先舉出三個重點,再分別延伸說明。事實上,根據心理學研究,將談話主軸鋪陳為三點是最有利的作法,一般人也比較容易記住,你可以以「關於OOO,我整理為以下三點」最開場白。

Step3 說明主題:看到說話的終點,就能掌握整體路徑(限時:12分鐘)

這是表達最重要的一部分,你得將想傳達的內容依照「結論、原因、具體範例」的順序說出。舉例來說,就是「從結論來說,就是OOO;之所以會這樣認為,是因為XXX;具體來說,像000那樣的例子。按照這樣的順序,按部就班說明。

_
下半場十五分鐘:確認說話內容

Step1 整理重點.休息(限時:5分鐘)

還記得之前提到,人的專注力每15分鐘就會中斷一次嗎?上半場15分鐘結束後,你可以先停頓一下,像請大家喝口水,或開個玩笑。休息過後再對之前15分鐘說的內容做個簡單的總結,像是「綜合以上所說,就是OOO。」

Step2 確認(限時:7分鐘)

講者怎麼樣能確認自己表現如何呢,觀眾又吸收了多少?在這個階段,就請聽眾問問題或發言吧。藉此確認對方已經聽懂哪些部分,還有哪些是不清楚的。如果對方不擅長主動發言,你可以採取發問形式,像是「關於剛才說的OOO,你有什麼想法?」

Step3 總結與補充(限時:3分鐘)

最後,確定雙方針對主題做出了什麼共識,無法達成哪些共識,以及需要再思考或繼續討論的事項。總結過後,順便向對方表達感謝之情,為雙方留下好印象。

 

發表於 轉錄文章, 電腦資訊 | [轉錄]想要每次簡報都讓觀眾捨不得眨眼嗎? 已關閉迴響。