TS 資訊科技與人才培育: 1月 2017

過去幾個月，製作了學習式的聊天機器人，並且也提供了免費製作個人化聊天機器人的方式。

請參考：

免費聊天機器人
學習式人工智慧

現在已經超過550個人跟她聊天。雖然數量還沒有很多，但是也值得做一些簡單的統計。

最有趣的當然就是，人類在知道對方是機器人的情況下，會傳什麼訊息？

絕大多數的人，一開始都是以「Hi」「你好」「哈嘍」等等開始。

接下來三種最常見的話是：

(1) 罵髒話，教髒話

不知道是不是人類生活壓力太大。至少有60%以上的人，罵機器人髒話。例如「幹林娘」「操你媽」「Fuck」...

當聊天機器人的簡易學習機制開啟後，也有50%以上的人，會試圖教她髒話。這甚至迫使我們將機器人暫停一天，增加排除「壞朋友」的機制。

機器人被罵是小事，但是如果她學壞了，可能會影響到之後對其他人的對話。

(2) 擬人化訊息

把機器人當成真人來詢問人類特有的資訊。即便已經知道對方是機器人。

差不多有一半左右的人會探尋擬人化訊息。

例如：「你長得漂亮嗎」「你的三圍」「你家住哪裡」「你喜歡吃什麼」「你今天心情好嗎」

進一步會詢問個人價值觀等等問題。

例如：「你是藍的還是綠的」「你支持多元成家嗎」

(3) 資訊查詢

畢竟是機器人，可能大家認為會像電影一樣，知識庫有極多的資料。所以也有超過一半以上的人，會試圖請她找一下資訊。

例如：「附近哪裡有好吃的餐廳」「今天天氣」「推薦減重餐」「我在哪裡」

不知道是不是受到Startrek的影響，資訊查詢只要幾次無法滿足人類的期待，接下來人類就會暴怒開始罵髒話:~

聊天機器人小姍的Line QR

加小姍為好友

In god we trust all others bring data
- W. Edwards Deming (全面品質管理TQM之父)

網路讓資訊傳播成本降到極端的低，同時也讓資訊品質降的極端的低。

謠言的成因有非常多。有些僅只是美麗的誤會，例如：十幾年前開始流傳的泰戈爾的詩。有些則是恐嚇類型的無風起浪，例如：誠品可怕迷魂盜，泰國罐頭。有些只是試圖吸引人目光的搞笑惡作劇，例如：裝翅膀飛起來

。

最糟糕的類型，莫過於以「統計數字」造出看似符合邏輯的謠言。並且，從這樣的謠言中獲得利益。

許多時候，數據本身難以查詢正確性。而且由數字導引出的邏輯，更容易因人而異，因地制宜。從數字所引導的偏誤，有時候甚至比單純的謠言還可怕，因為它可能會在網路上留存多年，難以辯證。如果只是單純搞笑也就罷了，如果個人或者組織，以這類型的資料來作為決策的判斷依據，那下場可能非常慘。錯誤的資料，比沒有資料更糟。

不過，只要稍微留意，加上合理的好奇心，統計謠言是有機會判斷其可能性：

(1) 不解釋的數字

在各類文章或研究報告中，為求精簡，只會根據重要數字做衍生推論。然而，數字背後通常還有「未解釋」的數字，而這個數字可能更為重要。

以企業僅21%的需要大學以上學歷為例。這篇文章，簡單說明勞動部的調查，僅有21%的企業需要大學以上的學歷。然而，這個數字有很大的問題。

也許，該調查隨機抽了100個企業主，其中只有21個企業主宣稱需要大學以上學歷的員工。

也許，該調查抽樣了企業主的「100個正在招募工作職缺總數」，這100個職缺中，只有21個是需要大學學歷。

這兩者有極大的差距。前者，可能這21個企業主，所需要員工數量高達2萬人，而另外79個企業主，所需員工只要79個人也說不定。而後者，正在招募的職缺，和「已經在職」的學歷也並未顯示。而單就此推論，僅21%企業需要大學學歷基本上過於簡化。

所有經過簡化，而沒有附上數據的真實來源的推測，其解釋很容易被扭曲。然而，被扭曲的解釋，當然比較有戲劇性，比較容易被注意。

勞動部網站根本也找不到這份調查。

此外，很多政治性民調也是屬於此類，涵蓋許多不解釋的數字。

(2) 接近完美的不可能

網路上流傳一份超過十幾年的Dr Ephrem Cheng研究顯示，越早退休壽命越長。(參考這裡，這裡，這裡)

這份數據流傳非常之廣，被引用次數非常多，每隔數年也會在通訊軟體上流來流去。最近當然就是LINE上流傳的長輩文。

上面提供了一份數字，是退休年齡跟「壽命」的對照表如下。

retire	life
49.9	86
51.2	85.3
52.5	84.6
53.8	83.9
55.1	83.2
56.4	82.5
57.2	81.4
58.3	80
59.2	78.5
60.1	76.8
61	74.5
62.1	71.8
63.1	69.3
64.1	67.9
65.2	66.8

不會統計的人也可以看出，在這個表中，越早退休，壽命越長。如果49.9歲就退休，那麼可以活到86歲。65.2歲才退休，就只能活到66.8歲。

以相關係數簡單計算，他的相關程度高達-0.96，換言之，這是一份極為完美的負相關數字。

這種過度完美個數字，應該要看研究論文的細節加以瞭解。例如他的樣本有多大？是什麼時候做的研究。就可取得的事實來看，他的樣本很小，並且研究的時間幾乎可以肯定在1990年以前。由於上述的年紀追蹤到80歲，所以研究對象大概是1930-1950嬰兒潮時代的人。

最重要的是，這些數字並非真實研究論文，卻在很多人的轉貼中，莫名其妙的被冠名「美國權威學者」。

這份研究數字會流傳很久的原因，是他剛好契合 (1) 這看起來是個學術研究 (2) 可以被直銷，財務規劃，人生規劃等等產業拿來利用 (3) 可以有趣的解釋它

除此之外，別無他因。雖然已經有些人發現不對勁，例如這裡。但是許多第一次看到此研究的人，仍然不明究理的轉貼。

如果想知道實際的退休年齡和生存年齡的相關性研究：請參考這篇研究。該篇的結論就交由各位判斷，但至少它的研究方式，數字細節，都解釋得十分清晰。

我已經透過管道寫信給該研究者Dr Cheng，懇請取得確實的研究資料以及統計方式等細節(說不定他也是受害者？)。至今2017/Jan/11尚未收到回覆。

(3) 邏輯上的不可能

邏輯上不可能，或者簡單的說「數字兜不攏」。

中國的2010的地方GDP就是邏輯上的懷疑問題。因為中國31個省份的GDP加總起來，竟然遠超過全國GDP，而且高過很多。這在邏輯上是不可能的事情，因此自然就有合理的統計造假懷疑。

類似的事情也容易發生在沒檢查，而且其實也不打算認真做統計的相關文章上，例如這裡。因為在許多時候，謠言只是想要造成吸引人的目的，其真實性不重要，當然就也不特別檢查數據。所以自己造成自己數據兜不攏，邏輯上不可能的情況並不少見。

這和前兩者不同，邏輯上的不可能，可以單就資訊本身的內容加以探索，或者是再加上一些事實根據來檢視。因此，比較容易看出謠言的真實性。

最後，稍微提醒一下：廣告的統計宣稱，其實難以查證。例如高露潔的「大部分牙醫師推薦」如果不是公平會主動進行查證，一般市井小民根本無法查證屬實與否。

TS 資訊科技與人才培育

標籤

1/19/2017

聊天機器人 - 人類會跟她聊什麼？