數(shù)據(jù)分析終究將從“隨機(jī)采樣”、“精確求解”和“強(qiáng)調(diào)因果”的傳統(tǒng)模式演變?yōu)榇髷?shù)據(jù)時(shí)代的“全體數(shù)據(jù)”、“近似求解”和“只看關(guān)聯(lián)不問因果”的新模式。
-------摘自《大數(shù)據(jù)時(shí)代》

“萬物皆有聯(lián)”是大數(shù)據(jù)的核心思想之一,強(qiáng)調(diào)在當(dāng)今數(shù)字化、信息化的時(shí)代,我們所處的世界中,無論是人、物、事都是相互聯(lián)系且相互影響。利用大數(shù)據(jù)技術(shù)可以更加深入地挖掘這些聯(lián)系和影響,從而揭示出問題背后的本質(zhì)規(guī)律及其潛在的價(jià)值。
數(shù)據(jù)故事
故事一:
在沃爾瑪超市的案例中,紙尿褲銷量高的那天啤酒銷量也比較高,這一現(xiàn)象看似是兩個(gè)沒有直接關(guān)聯(lián)的商品之間出現(xiàn)了聯(lián)系,但實(shí)際上背后存在明確的因果關(guān)系。超市管理人員通過對(duì)顧客行為的觀察和分析,發(fā)現(xiàn)大多數(shù)購買紙尿褲的人是奶爸,而他們常常會(huì)在購買完紙尿褲后順帶購買啤酒,這一現(xiàn)象就非常自然地解釋了紙尿褲銷量和啤酒銷量之間的相關(guān)性。
故事二:
冰淇淋銷量和犯罪率之間存在正相關(guān)關(guān)系,但并不意味著冰淇淋的銷售會(huì)導(dǎo)致犯罪行為的發(fā)生。實(shí)際上,這種相關(guān)性是由于天氣熱時(shí)人們更愿意購買冰淇淋,從而推動(dòng)了冰淇淋銷量的升高;同時(shí),高溫也會(huì)增加晚間的戶外活動(dòng)時(shí)間,從而提高了犯罪發(fā)生的可能性,這也是犯罪率上升的原因之一。

我們應(yīng)該注意到,上面兩個(gè)故事中提到的相關(guān)關(guān)系只是表象,背后隱藏著更深層次的原因和影響因素。在大數(shù)據(jù)分析中,我們需要對(duì)事物之間的聯(lián)系和相互作用進(jìn)行全方位的探索和理解,以便能夠更好地挖掘數(shù)據(jù)中蘊(yùn)含的價(jià)值,做出更有科學(xué)依據(jù)的預(yù)測(cè)和決策。
案例分享
病毒性食物中毒與氣象、環(huán)境、輿情數(shù)據(jù)之間關(guān)系

利用2012.01.01~2014.12.31氣象,環(huán)境,輿情等多維度數(shù)據(jù),探索不同維度下數(shù)據(jù)與食物中毒之間的相關(guān)性關(guān)系,并分別建立模型預(yù)測(cè)病毒性和細(xì)菌性食物中毒治療件數(shù)以及發(fā)生可能性,為預(yù)防食物中毒、合理配置醫(yī)療資源等,提供數(shù)據(jù)支撐。我們基于泊阿松回歸、負(fù)二項(xiàng)回歸、懲罰回歸、邏輯回歸、懲罰邏輯回歸等模型展開探索,最終構(gòu)建了基于負(fù)二項(xiàng)回歸預(yù)測(cè)食物中毒治療件數(shù)模型;構(gòu)建邏輯回歸預(yù)測(cè)食物中毒發(fā)生可能性模型。