過去幾個月,製作了學習式的聊天機器人,並且也提供了免費製作個人化聊天機器人的方式。
請參考:
免費聊天機器人
學習式人工智慧
現在已經超過550個人跟她聊天。雖然數量還沒有很多,但是也值得做一些簡單的統計。
最有趣的當然就是,人類在知道對方是機器人的情況下,會傳什麼訊息?
絕大多數的人,一開始都是以「Hi」「你好」「哈嘍」等等開始。
接下來三種最常見的話是:
(1) 罵髒話,教髒話
不知道是不是人類生活壓力太大。至少有60%以上的人,罵機器人髒話。例如「幹林娘」「操你媽」「Fuck」...
當聊天機器人的簡易學習機制開啟後,也有50%以上的人,會試圖教她髒話。這甚至迫使我們將機器人暫停一天,增加排除「壞朋友」的機制。
機器人被罵是小事,但是如果她學壞了,可能會影響到之後對其他人的對話。
(2) 擬人化訊息
把機器人當成真人來詢問人類特有的資訊。即便已經知道對方是機器人。
差不多有一半左右的人會探尋擬人化訊息。
例如:「你長得漂亮嗎」「你的三圍」「你家住哪裡」「你喜歡吃什麼」「你今天心情好嗎」
進一步會詢問個人價值觀等等問題。
例如:「你是藍的還是綠的」「你支持多元成家嗎」
(3) 資訊查詢
畢竟是機器人,可能大家認為會像電影一樣,知識庫有極多的資料。所以也有超過一半以上的人,會試圖請她找一下資訊。
例如:「附近哪裡有好吃的餐廳」「今天天氣」「推薦減重餐」「我在哪裡」
不知道是不是受到Startrek的影響,資訊查詢只要幾次無法滿足人類的期待,接下來人類就會暴怒開始罵髒話:~
聊天機器人小姍的Line QR
|
加小姍為好友 |
In god we trust all others bring data
- W. Edwards Deming (全面品質管理TQM之父)
網路讓資訊傳播成本降到極端的低,同時也讓資訊品質降的極端的低。
謠言的成因有非常多。有些僅只是美麗的誤會,例如:十幾年前開始流傳的泰戈爾的詩。有些則是恐嚇類型的無風起浪,例如:誠品可怕迷魂盜,泰國罐頭。有些只是試圖吸引人目光的搞笑惡作劇,例如:裝翅膀飛起來。
最糟糕的類型,莫過於以「統計數字」造出看似符合邏輯的謠言。並且,從這樣的謠言中獲得利益。
許多時候,數據本身難以查詢正確性。而且由數字導引出的邏輯,更容易因人而異,因地制宜。從數字所引導的偏誤,有時候甚至比單純的謠言還可怕,因為它可能會在網路上留存多年,難以辯證。如果只是單純搞笑也就罷了,如果個人或者組織,以這類型的資料來作為決策的判斷依據,那下場可能非常慘。錯誤的資料,比沒有資料更糟。
不過,只要稍微留意,加上合理的好奇心,統計謠言是有機會判斷其可能性:
(1) 不解釋的數字
在各類文章或研究報告中,為求精簡,只會根據重要數字做衍生推論。然而,數字背後通常還有「未解釋」的數字,而這個數字可能更為重要。
以企業僅21%的需要大學以上學歷為例。這篇文章,簡單說明勞動部的調查,僅有21%的企業需要大學以上的學歷。然而,這個數字有很大的問題。
也許,該調查隨機抽了100個企業主,其中只有21個企業主宣稱需要大學以上學歷的員工。
也許,該調查抽樣了企業主的「100個正在招募工作職缺總數」,這100個職缺中,只有21個是需要大學學歷。
這兩者有極大的差距。前者,可能這21個企業主,所需要員工數量高達2萬人,而另外79個企業主,所需員工只要79個人也說不定。而後者,正在招募的職缺,和「已經在職」的學歷也並未顯示。而單就此推論,僅21%企業需要大學學歷基本上過於簡化。
所有經過簡化,而沒有附上數據的真實來源的推測,其解釋很容易被扭曲。然而,被扭曲的解釋,當然比較有戲劇性,比較容易被注意。
勞動部網站根本也找不到這份調查。
此外,很多政治性民調也是屬於此類,涵蓋許多不解釋的數字。
(2) 接近完美的不可能
網路上流傳一份超過十幾年的Dr Ephrem Cheng研究顯示,越早退休壽命越長。(參考這裡,這裡,這裡)
這份數據流傳非常之廣,被引用次數非常多,每隔數年也會在通訊軟體上流來流去。最近當然就是LINE上流傳的長輩文。
上面提供了一份數字,是退休年齡跟「壽命」的對照表如下。
retire | life |
49.9 | 86 |
51.2 | 85.3 |
52.5 | 84.6 |
53.8 | 83.9 |
55.1 | 83.2 |
56.4 | 82.5 |
57.2 | 81.4 |
58.3 | 80 |
59.2 | 78.5 |
60.1 | 76.8 |
61 | 74.5 |
62.1 | 71.8 |
63.1 | 69.3 |
64.1 | 67.9 |
65.2 | 66.8 |
不會統計的人也可以看出,在這個表中,越早退休,壽命越長。如果49.9歲就退休,那麼可以活到86歲。65.2歲才退休,就只能活到66.8歲。
以相關係數簡單計算,他的相關程度高達-0.96,換言之,這是一份極為完美的負相關數字。
這種過度完美個數字,應該要看研究論文的細節加以瞭解。例如他的樣本有多大?是什麼時候做的研究。就可取得的事實來看,他的樣本很小,並且研究的時間幾乎可以肯定在1990年以前。由於上述的年紀追蹤到80歲,所以研究對象大概是1930-1950嬰兒潮時代的人。
最重要的是,這些數字並非真實研究論文,卻在很多人的轉貼中,莫名其妙的被冠名「美國權威學者」。
這份研究數字會流傳很久的原因,是他剛好契合 (1) 這看起來是個學術研究 (2) 可以被直銷,財務規劃,人生規劃等等產業拿來利用 (3) 可以有趣的解釋它
除此之外,別無他因。雖然已經有些人發現不對勁,例如這裡。但是許多第一次看到此研究的人,仍然不明究理的轉貼。
如果想知道實際的退休年齡和生存年齡的相關性研究:請參考這篇研究。該篇的結論就交由各位判斷,但至少它的研究方式,數字細節,都解釋得十分清晰。
我已經透過管道寫信給該研究者Dr Cheng,懇請取得確實的研究資料以及統計方式等細節(說不定他也是受害者?)。至今2017/Jan/11尚未收到回覆。
(3) 邏輯上的不可能
邏輯上不可能,或者簡單的說「數字兜不攏」。
中國的2010的地方GDP就是邏輯上的懷疑問題。因為 中國31個省份的GDP加總起來,竟然遠超過全國GDP,而且高過很多。這在邏輯上是不可能的事情,因此自然就有合理的統計造假懷疑。
類似的事情也容易發生在沒檢查,而且其實也不打算認真做統計的相關文章上,例如這裡。因為在許多時候,謠言只是想要造成吸引人的目的,其真實性不重要,當然就也不特別檢查數據。所以自己造成自己數據兜不攏,邏輯上不可能的情況並不少見。
這和前兩者不同,邏輯上的不可能,可以單就資訊本身的內容加以探索,或者是再加上一些事實根據來檢視。因此,比較容易看出謠言的真實性。
最後,稍微提醒一下:廣告的統計宣稱,其實難以查證。例如高露潔的「大部分牙醫師推薦」如果不是公平會主動進行查證,一般市井小民根本無法查證屬實與否。