大數(shù)據(jù)時代經(jīng)典語錄
《大數(shù)據(jù)時代》是國外大數(shù)據(jù)研究的先河之作,本書作者維克托邁爾舍恩伯格被譽為“大數(shù)據(jù)商業(yè)應用第一人”,下面小編為大家?guī)泶髷?shù)據(jù)時代經(jīng)典語錄,供大家閱讀!
正文:
第一章:樣本 =全體
統(tǒng)計學家證明,采樣分析的精確性隨著采樣隨機性的增加而大幅度提高,但與樣本數(shù)量的增加關(guān)系不大。隨機采樣取得了巨大的成功,但是他的成功利亞與采樣的絕對隨機性,實現(xiàn)采樣的隨機性非常困難,一旦采樣過程中存在任何偏見,分析結(jié)果就會相去甚遠。 搜集的數(shù)據(jù)越來越多,分析和預測結(jié)果就會越來越準確,并發(fā)現(xiàn)一些細節(jié)和微乎其微的重要問題。
有些情況下,異常值才是重要的信息,大數(shù)據(jù)的處理方法就不會錯過這個異常值。商務是即時的,因此數(shù)據(jù)分析也應該是即時的。 《魔鬼經(jīng)濟學》
大數(shù)據(jù)是指不用隨機分析法這樣的捷徑,而是通過采用所有數(shù)據(jù)的方法。數(shù)據(jù)量不一定很大,但需要全部,包含了所有的信息。
Lytro相機記錄整個光場的信息,搜集了所有的數(shù)據(jù),拍攝完之后再對焦,而且有“可循環(huán)利用性”。 《爆發(fā)》
第二章:混雜性。
只有 5%的數(shù)據(jù)是結(jié)構(gòu)化的,可以適用于傳統(tǒng)數(shù)據(jù)庫,如果不接受混亂,剩下 95%的非結(jié)構(gòu)化數(shù)據(jù)都無法被利用。
少量數(shù)據(jù)下運行最佳的算法,可能在大數(shù)據(jù)下可能會表現(xiàn)差強人意,在少量數(shù)據(jù)下表現(xiàn)差的算法,可能在大數(shù)據(jù)下驚呆小伙伴們。大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復雜算法更有效,混雜是關(guān)鍵。
谷歌翻譯之所以好,除了數(shù)據(jù)量龐大以外,還接受了有錯誤的數(shù)據(jù),即來自互聯(lián)網(wǎng)的廢棄內(nèi)容。
Hadoop 超大量數(shù)據(jù)下的分布式處理,假設(shè)系統(tǒng)癱瘓而建立數(shù)據(jù)副本,假定數(shù)據(jù)量巨大無法移動,人們必須在本地進行數(shù)據(jù)分析。它的輸出結(jié)果不想關(guān)系型數(shù)據(jù)庫那般精確,無法用于衛(wèi)星發(fā)射、開具銀行賬戶明細,但是運行卻快很多。
第三章 不是因果關(guān)系,而是相關(guān)關(guān)系
通過數(shù)據(jù)推薦產(chǎn)品所增加的銷售遠遠超過書評家的貢獻。計算機可能不知道為什么喜歡海明威作品的客戶會購買菲茨吉拉德的書,但是他只要通過算法統(tǒng)計分析,得知這個結(jié)果就可以了。
沃爾瑪領(lǐng)導了零售鏈的革命,讓供應商監(jiān)控銷售速率、數(shù)量、以及存貨情況。這個數(shù)據(jù)庫不僅包含了每一個顧客的購物清單以及消費額,還包括購物籃中的物品、具體購買時間,甚至購買當天的天氣。
在大數(shù)據(jù)時代,通過建立在人的偏見上的關(guān)聯(lián)物檢測法已經(jīng)不再可行,因為數(shù)據(jù)庫太大而且需要考慮的領(lǐng)域太復雜。幸運的是,許多迫使我們選擇假想分析法的限制條件也逐漸消失了,F(xiàn)在我們擁有如此多的數(shù)據(jù),這么好的機器計算能力,因而不再需要人工選擇一個關(guān)聯(lián)物或者一小部分相似的數(shù)據(jù)來逐一分析了。大數(shù)據(jù)的相關(guān)關(guān)系分析法,取代了基于假想的易出錯的方法。大數(shù)據(jù)的相關(guān)關(guān)系法更準確、更快,而且不易受偏見的影響。
塔基特公司在完全不合準媽媽對話的前提下預測一個女性會在什么時候懷孕。她們會光顧以前不會去的商店,漸漸對新的品牌建立忠誠。
ups與汽車修理預測,車輛處故障后,造成延誤和在裝載的負擔,消耗大量人力物力。通過檢測汽車的每個部位,及時更換需要更換的零件,免除了可能會造成的困擾。同樣的方法也可以用在人的身上,,檢測病人的即時信息。
第四章 數(shù)據(jù)化 一切皆可量化
莫里整合美國海軍的航海日志,繪制更安全和快速的航海圖表,其他商船需要使用圖表,必須(病毒式傳染)按照要求撰寫航海日志并提交給莫里。將海上的船只都變成一個個科學站和天文臺。
數(shù)據(jù)化不是數(shù)字化,數(shù)字化只是把模擬數(shù)據(jù)變成1和0來表示。
gps全球定位系統(tǒng)的地理定位能精確到米,實現(xiàn)了自古以來無數(shù)航海家、制圖家和數(shù)學家的夢想。
airsage每天通過處理上百萬手機用戶的150億條位置信息,為超過100個美國城市提供實時交通信息。
facebook,twitter等社交網(wǎng)絡將我們的關(guān)系、經(jīng)歷和情感進行數(shù)據(jù)化。他們不僅提供我們尋找和維持朋友、同事關(guān)系的場所,也將我們?nèi)粘I钪械臒o形元素提取出來,轉(zhuǎn)化為可用作新用途的數(shù)據(jù)。華爾街的數(shù)學奇才們將數(shù)據(jù)傳輸?shù)剿麄兊乃惴J疆斨,尋找能被有效利用的關(guān)系模式當中。社交網(wǎng)絡分析之父寫了一個程序,能通過監(jiān)聽新微薄的發(fā)布頻率,預測一部電影的成敗,比其他傳統(tǒng)方法還要準確。
自我量化是一項由一群健身迷、醫(yī)學瘋子以及技術(shù)狂人發(fā)起的運動,通過測量身體每一個部位和每一件事來讓生活更美好。
第五章 價值 取之不盡用之不竭
驗證碼輸入時,一個用于證明對方是人類,另一個則是圖書掃描時計算機無法識別的模糊單詞,由網(wǎng)絡上大量用戶幫忙識別,節(jié)省了大量人力物力財力。
隨著購物平臺、設(shè)計平臺、金融等的出現(xiàn),我們的人脈關(guān)系、想法、喜好和日常生活模式也逐漸被加入到巨大的個人信息庫中。
數(shù)據(jù)的價值不會隨著它的使用而減少,而是可以不斷被處理,個人的使用不會妨礙其他人的使用。
ibm搜集汽車電量和路線、充電站插槽、天氣等等信息,開發(fā)了復雜的預測模型,確定充電的最佳時間和地點,揭示充電站的最佳設(shè)置點。
google推出語音識別服務,借助nuance的技術(shù),但是自己儲存語音識別記錄,依靠此記錄重新創(chuàng)建了一個新的語音識別系統(tǒng)。
搜集數(shù)據(jù)是必須確保數(shù)據(jù)具有再利用性、重組能力、可拓展能力。
有部分數(shù)據(jù)價值會隨之時間推移失去價值,比如在亞馬遜上購買一本書,數(shù)月后對這方面的書完全失去了興趣,則這個數(shù)據(jù)就失去了價值。但并非所有的數(shù)據(jù)都會貶值,大數(shù)據(jù)下鼓勵儲存所有數(shù)據(jù)并試圖挖掘其中的價值。
google擁有世界上最完整的拼寫檢查器,涵蓋世界上每一種語言,依據(jù)是每天處理的30億查詢中輸入搜索框中的錯誤拼寫。
“數(shù)據(jù)廢氣”——他是用戶在線交互的副產(chǎn)品,包括瀏覽了那些頁面、停留了多久、鼠標光標停留的位置、輸入了什么信息等。比如google如果發(fā)現(xiàn)用戶搜索之后再重復搜索,則表明搜索結(jié)果不滿意,或者發(fā)現(xiàn)用戶點擊后面的選項,則算法自動將后面的選項調(diào)前。是搜索引擎的自我訓練。
電子閱讀器捕捉大量關(guān)于文學喜好和閱讀人群的數(shù)據(jù),販賣給出版社。比如閱讀一頁或一節(jié)需要多長時間,讀者是略讀還是直接放棄閱讀,是否劃線強調(diào)還是在空白處做了標記,這些信息都是出版商和作者之前不會知道的信息。
在線課程跟蹤學生的web交互來尋找最佳的.教學方法,比如多次看一個課程,說明該課程沒有講清楚。
政府是最大規(guī)模信息的原始采集者。美國、歐盟等政府已經(jīng)公開了很多信息,除了一些機密的信息。flyontime.us航班時間預測,搜集交通運輸局的歷史航班延誤數(shù)據(jù)、美國聯(lián)邦航空管理局的機場信息,以及美國國家海洋和大氣管理局的以往天氣報告、國美氣象服務的實時狀態(tài)等。
給數(shù)據(jù)估值——facebook更具會計準則計算出的價值為63億美元,但市場估值卻為1040億美元,為什么差距這么大?公司賬面價值和市場價值之間的差額被記為“無形資產(chǎn)”。二十世紀八十年代中期,無形資產(chǎn)在美國上市公司市值中約占40%,而在2002年,這一數(shù)據(jù)已經(jīng)增長為75%。無形資產(chǎn)早期包括品牌、人才和戰(zhàn)略這些應計入正規(guī)金融會計制度的非有形資產(chǎn)部分。但漸漸地,公司所持有和使用的數(shù)據(jù)也漸漸納入了無形資產(chǎn)的范疇。幾乎肯定數(shù)據(jù)的價值將顯示在企業(yè)的資產(chǎn)負載表上,成為一個新的資產(chǎn)類別。
催生了一大批倒賣數(shù)據(jù)的公司和機構(gòu),紛紛給數(shù)據(jù)定價,數(shù)據(jù)在不斷被轉(zhuǎn)手和利用,共同挖掘其中的價值。
第六章 角色定位
decide.com收集電子商務網(wǎng)站上所有的電子產(chǎn)品的價格數(shù)據(jù)和產(chǎn)品信息,告知用戶何時才是購買電子產(chǎn)品的最佳時機。預測準確率高達77%。他和farecast都出自奧倫之手。 大數(shù)據(jù)價值鏈三大構(gòu)成:基于數(shù)據(jù)本身的公司,基于技能的公司,基于思維的公司。google和亞馬遜幸運地同時擁有這三個方面。
數(shù)據(jù)科學家是統(tǒng)計學家、軟件程序員、圖形設(shè)計師和作家的結(jié)合體,通過搜尋數(shù)據(jù)庫來得到新的發(fā)現(xiàn)。
信用卡發(fā)行商搜集消費信息。
微軟和醫(yī)院合作,分析多年來的匿名醫(yī)療記錄,發(fā)現(xiàn)出現(xiàn)壓抑的病人再次入院的概率更高,因此出院以后的醫(yī)學干預必須以解決病人的心理問題為重心,降低再入院率和醫(yī)療成本。
所謂大數(shù)據(jù)思維,是指一種意識,認為公開的數(shù)據(jù)一旦處理得當就能為千百萬人急需解決的問題提供答案。
金礦產(chǎn)業(yè)鏈中,金子最珍貴,因此數(shù)據(jù)的價值勝過算法技術(shù)和大數(shù)據(jù)思維。
inrix搜集全美和歐洲的汽車交通信息,并提供app給司機,供司機查詢交通情況,同時司機自身的交通數(shù)據(jù)也上傳分享了出來。他同時發(fā)現(xiàn)一些價值點,比如一個商場周圍車輛很多,說明商場的銷量增加。上下班高峰時期的交通狀況變好了,這就說明失業(yè)率增加了,經(jīng)濟狀況變差了。
行業(yè)專家和技術(shù)專家的光芒都會被統(tǒng)計學家和數(shù)據(jù)分析家的出現(xiàn)而變暗,因為后者不受舊觀念的影響,能夠聆聽數(shù)據(jù)發(fā)出的聲音。
人們把專業(yè)人才看的比全才更重要,深度才是財富。
蘋果公司與運營商簽訂合約的時候規(guī)定,運營商提供給它大部分的有用數(shù)據(jù)。
普通消費者愿意免費提供這些數(shù)據(jù)來換取更好的服務,比如亞馬遜的圖書推薦、博客、twitter,維基百科等等。
第七章 風險
大數(shù)據(jù)時代,很多數(shù)據(jù)在搜集的時候并無意用作其他用途,而最終卻產(chǎn)生了很多創(chuàng)新性的用途。
無處不在的信息泄露,侵犯了人們的隱私,一個可能的途徑是匿名化,但是匿名化對大數(shù)據(jù)是無效的,因為搜集的數(shù)據(jù)越來越多,我們會結(jié)合越來越多不同來源的數(shù)據(jù)。 “藍色粉碎”為警員提供情報,關(guān)于哪些地方更容易發(fā)生犯罪事件,什么時候更容易帶到罪犯。幫助執(zhí)法部門更好的分配資源,使犯罪發(fā)生率下降了26%。
過分依賴數(shù)據(jù),而數(shù)據(jù)遠遠沒有我們所想的那么可靠。美國國防部長衡量越戰(zhàn)成果用死亡人數(shù),但只有2%的美國將軍認為死亡人數(shù)對戰(zhàn)爭成果是有意義的,美國很多部門一層一層將數(shù)字夸大化。
其實,卓越的才華并不依賴于數(shù)據(jù)。喬布斯依靠的是直覺,他的第六感,記者問他做了多少市場調(diào)研時,“沒做!消費者沒有義務去了解自己想要什么!
第八章 掌控 責任與自由并舉的信息管理
管理改革1:個人隱私保護,從個人許可到讓數(shù)據(jù)使用者承擔責任。
新的隱私保護模式,著重于數(shù)據(jù)使用者為其行為承擔責任,而不是將重心放在收集數(shù)據(jù)之處取得個人同意上。監(jiān)管機制可以決定不同種類的個人數(shù)據(jù)必須刪除的時間。再利用的時間框架則取決于數(shù)據(jù)內(nèi)在風險和社會價值觀的不同。公司可以利用數(shù)據(jù)的時間更長,但相應必須為其行為承擔責任以及富有特定時間之后刪除個人數(shù)據(jù)的義務;蛘吖室鈱(shù)據(jù)模糊黑醋栗,促使大數(shù)據(jù)庫的查詢不能顯示精確地結(jié)果,而只有相近的結(jié)果。 管理改革2:個人動因vs預測分析。犯罪評定必須根據(jù)過去發(fā)生的事實評定,對未來的預測即使準確,但有失公平性和說服力。
管理改革3:擊碎黑盒子,大數(shù)據(jù)算法師的崛起。
管理改革4:反數(shù)據(jù)壟斷大亨。反壟斷法遏制了權(quán)利的濫用,促進了大數(shù)據(jù)平臺的良性競爭,世界上一些大型數(shù)據(jù)擁有者和政府都在逐步公布其數(shù)據(jù)。
結(jié)語 正在發(fā)生的未來
大數(shù)據(jù)為我們提供的不是最終答案,只是參考答案,幫助是暫時的,而更好的方法和答案還在不久的未來。
佛勞爾成為紐約市的“分析主人”,利用城市尚未開發(fā)的數(shù)據(jù)庫開展分析和研究,提取價值。佛勞爾對經(jīng)驗豐富的統(tǒng)計學家沒有興趣,,他擔心他們不愿意采取這種新方法來解決問題。“我想要可執(zhí)行的洞察力”。挑選了五個畢業(yè)一兩年的經(jīng)濟學專業(yè)學生組成團隊。一起專注處理“非法改建問題”,將一套住房隔出很多個小房間,容納多十倍的人,帶來巨大的火災隱患。紐約市每年會收到25000起非法改建的投訴,但只有200名檢察院在處理這些事情。沒有好辦法區(qū)分簡單的滋擾問題和嚴重的爆炸起火事件!饎跔栍么髷(shù)據(jù)來解決。
輸入來自19個機構(gòu)的數(shù)據(jù)集,房產(chǎn)稅、公用設(shè)施使用異常、建筑類型、修建時間、救護車訪問次數(shù)、犯罪率和嚙齒動物投訴等信息,數(shù)據(jù)形式都不可用,不一致,很凌亂,但他們整合以后,忽略精確度,將巨大的混雜數(shù)據(jù)庫與火災數(shù)據(jù)嚴重性排名進行對比并得到一個模型,預測投訴迫切度。
現(xiàn)場考察發(fā)現(xiàn)新的數(shù)據(jù)集線索,比如裝修、磚工等,而且讓檢查員來測試他們的模型。最終讓檢查準確度提高了五倍。“我對因果關(guān)系不感興趣,除非他用行動說話!
大數(shù)據(jù)提示我們接受類似的不準確,因為不準確正是我們之所以為人的特征之一,就像我們處理混亂數(shù)據(jù)一樣,畢竟混亂構(gòu)成了世界的本質(zhì),也構(gòu)成了人腦的本質(zhì),學會接受和運用他們才會得益。
【大數(shù)據(jù)時代經(jīng)典語錄】相關(guān)文章:
大數(shù)據(jù)時代,看“別人家的公司”是如何招聘的07-25
大數(shù)據(jù)時代企業(yè)管理會計存在的問題及應對策略論文01-14
新創(chuàng)業(yè)時代09-26
數(shù)據(jù)庫開題報告12-21
冰川時代觀后感05-24
《小時代》觀后感03-02
銀行監(jiān)督數(shù)據(jù)轉(zhuǎn)化調(diào)研報告12-21
飲料消費人群數(shù)據(jù)調(diào)研報告04-04
金融數(shù)據(jù)求職信封面02-07