成年人在线观看视频免费,国产第2页,人人狠狠综合久久亚洲婷婷,精品伊人久久

我要投稿 投訴建議

什么是數(shù)據(jù)分析和數(shù)據(jù)挖掘

時間:2022-10-23 02:31:16 求職指南 我要投稿
  • 相關(guān)推薦

什么是數(shù)據(jù)分析和數(shù)據(jù)挖掘

  上午嘉賓的講課,講的東西大部分是給管理階層和領(lǐng)導(dǎo)階層說的。我是講給學(xué)生,給年輕人聽的。如果你管理階層再好,你找不到人也什么都沒有,而對于每個人來說最重要的就是把自己的價值提高,而不是地位。

  一、數(shù)據(jù)科學(xué)的前途

  這是一些調(diào)查的結(jié)果,數(shù)據(jù)科學(xué)家的年薪是多少,這是美國的。

  程序員的平均年薪不是我們的目標(biāo),也不是成功的標(biāo)志,這是一種價值的標(biāo)志。怎么樣才能有價值?我說的可能有點過分,但是我必須這么說,現(xiàn)在的統(tǒng)計,特別數(shù)據(jù)統(tǒng)計問題很嚴(yán)重。

  美國的一個調(diào)查報告說人才缺口很大,說明在美國培養(yǎng)這樣的人數(shù)也不夠,可以用大數(shù)據(jù)來做的缺少得更多。美國是這樣,中國將來肯定也是這樣,現(xiàn)在實際上有很多缺口。現(xiàn)在就怕跳槽,怕找不著(工作),我們的成功不是要通過關(guān)系,不是通過老子有個什么樣的頭銜,我們要有能力,這樣誰都想要你,這才是價值。我們要的是價值,而不是所謂的成功。

  如果你擅長數(shù)學(xué),有很清晰的邏輯思維能力(文科的人是沒有的,但是可以訓(xùn)練,因為大部分知識都是自學(xué)的),并且對某個行業(yè)了如指掌,如果你有這樣的技能組合,就可能當(dāng)上數(shù)據(jù)科學(xué)家。曾經(jīng)LinkedIn有個投票顯示,數(shù)據(jù)分析和數(shù)據(jù)挖掘是最大的求職法寶。那些高科技團隊都有自己的數(shù)據(jù)科學(xué)團隊,而那些非科技公司和大公司也需要做這些東西,他們現(xiàn)在需要的是人才,你們就是要把自己做變成被需要的人才。

  數(shù)據(jù)科學(xué)家專業(yè)人才干什么呢?對公司來說,他們可以挖掘新的信息,幫助公司開源節(jié)流,所以它需要的是人才,關(guān)鍵是人才。我們說數(shù)據(jù)科學(xué),科學(xué)意味著沒有權(quán)威,不要迷信那些權(quán)威,中國人喜歡崇拜權(quán)威。任何科學(xué)研究的目的是基于數(shù)據(jù),顛覆理論,這樣才能往前進。中國人從小學(xué)會的就是聽老師話,聽爸爸媽媽話,聽家長話,古人什么都好,現(xiàn)代人什么都不好,這樣一代不如一代,所以你必須要有科學(xué)精神。諾貝爾物理獎沒有一個是承認(rèn)過去怎么樣的,而是推翻過去的事情,這是科學(xué),是顛覆性的。

  數(shù)據(jù)科學(xué)有很多很多定義,最基本的定義就是這個,就是Computer science,還有數(shù)學(xué)、統(tǒng)計、目標(biāo)、知識,這是最基本的,再說多了就過分了。

  二、數(shù)據(jù)科學(xué)家所需的技能

  對于現(xiàn)在的你們來說,一般不會細(xì)到那種程度。我們應(yīng)該變成一個通才,哪個公司都應(yīng)該愿意要我們。清華大學(xué)之所以現(xiàn)在變成這個樣子,就是因為在1952年院系調(diào)整的時候,每一個專業(yè)就是一個生產(chǎn)線,弄的很細(xì)很細(xì),沒有一個更寬廣的視野。

  主要是三部分:數(shù)學(xué)、統(tǒng)計、知識。

  1.數(shù)學(xué)關(guān)鍵是邏輯而不是具體的方法,不是你怎么求多項式的根,而是它的基本邏輯,它的數(shù)學(xué)語言,這一點要懂。數(shù)學(xué)邏輯是各種學(xué)科當(dāng)中最嚴(yán)格的邏輯,無論你是學(xué)邏輯的,學(xué)物理的,學(xué)什么的,文科學(xué)邏輯的肯定是不如學(xué)物理的,學(xué)物理的邏輯肯定不如學(xué)數(shù)學(xué)的,所以你要跟學(xué)數(shù)學(xué)的辯論的話就很困難。文理分科造成沒有邏輯的文章,沒有邏輯的法官,現(xiàn)在法官錯判率那么高,他們中學(xué)平面幾何沒學(xué)好,基本的常識,基本的邏輯推理都不會。

  2.統(tǒng)計學(xué)的是批判性思維。你們在統(tǒng)計學(xué)課本上學(xué)到的是70年前、100年前的知識,是前計算機時代的東西。那時候沒有那么多計算機,數(shù)據(jù)量不大,所以他做什么都用假定來做結(jié)論。中國在數(shù)據(jù)統(tǒng)計方面的研究大部分還是遵循著70年前、100年前的東西來做,你不能假定地球是方的,然后得出結(jié)論去發(fā)表,這沒有什么意義的,你必須根據(jù)現(xiàn)實生活的意義來做。

  所以我們要學(xué)的也不是基于無法驗證的假定而形成的假設(shè)檢驗和區(qū)間估計。就像我說的你假設(shè)檢驗,什么顯著,0.05就是顯著。親子鑒定100個人有5個鑒定錯了,能接受嗎?能認(rèn)為這是小概率嗎?區(qū)間估計就更難說了。

  我們所要學(xué)習(xí)和了解的,是最近20年發(fā)展而且仍然在發(fā)展的最新的經(jīng)濟學(xué)方法,這是最根本的。像我現(xiàn)在正在尋找經(jīng)典方法,比經(jīng)濟學(xué)好的方法,我每天都在算數(shù)據(jù),我就想找這樣的例子。我舉個例子,對于做出貢獻(xiàn)性的方法,回歸什么的那一大堆方法,我如果做的話,我沒找到一個例子說用這些方法比神經(jīng)網(wǎng)絡(luò)做的更好的。所以說你不能從理論出發(fā),不能從你在數(shù)學(xué)雜志上發(fā)表出發(fā),一定要從數(shù)據(jù)出發(fā)。

  有一個瑞士人到科學(xué)院講課,就講這些東西,底下科研的學(xué)究們,研究生們說,這個系數(shù)有什么意義啊?他說貢獻(xiàn)的變量的系數(shù),沒有任何意義,只要這個方法預(yù)測準(zhǔn)確,那就是好。中國人學(xué)呆了。像回歸分析,在別的變量不變的時候,我這個量增加不增加?別的變量肯定不變的,特別經(jīng)濟統(tǒng)計,沒有兩個變量是完全不變的。

  3.計算機科學(xué),不是一兩個盜版傻瓜軟件+點鼠標(biāo)就是計算機科學(xué)了。還加上網(wǎng)絡(luò)漫游能力和泛型編程能力,我說的這個泛型編程能力是計算機編程理念,我用了很多編程理念沒有一個是在課堂上學(xué)的,就是自己在編的時候自己領(lǐng)會。一切東西依賴于自學(xué),而不是依賴?yán)蠋,這可能跟我的經(jīng)歷有關(guān)。

  這是2015年的一個網(wǎng)站調(diào)查,用的最多的是R語言,這是2014年的,R語言在圖片當(dāng)中也是最多的,其他的軟件加起來是17%,底下這個是2014年,也是R語言,為什么是這樣?第一,它們是開源的,它們的代碼是公開的。

  第二是計算機的親和性,還有SQL,親和性很大,就是它的語言你懂一個,再學(xué)一個,直到后來一天一個就學(xué)下來了,真是這樣的,不是開玩笑。我不想說SAS,我在美國的第一個研究就是SAS,它的親和力小。實際上現(xiàn)在很多會R語言的都可以去做東西。

  第三是轉(zhuǎn)換性的,就是R語言跟Python轉(zhuǎn)化的多,所以第一學(xué)的編程語言應(yīng)該是R語言,然后Python,然后是其他的語言,其他點鼠標(biāo)的語言是用不著學(xué)的。

  4.最根本的就是領(lǐng)域知識,你必須了解領(lǐng)域知識,你才能夠知道該怎么做。如果你僅僅是一個干巴巴的統(tǒng)計學(xué)家,就不會了解實際問題。

  原來在醫(yī)學(xué)雜志發(fā)表的一個很有名的文章講,如果父母在嬰兒房間內(nèi)睡覺總是開著燈,嬰兒就會有高度近視。后來再發(fā)現(xiàn),凡是父母高度近視的,往往有給小孩開燈的習(xí)慣。到底什么造成小孩高度近視,現(xiàn)在你們知道的,但是當(dāng)時的人不知道,所以要有很深刻的領(lǐng)域知識,只有明白目標(biāo)領(lǐng)域知識的人才能明白它的意義,知道往哪個方向努力,去判斷分析結(jié)果的可能性。所以用數(shù)據(jù)來說話,其他的一切都是廢話,不要做一些莫名其妙的假定,我每年看到很多很多的文章,包括一些大賽,好多比賽題目都是莫名其妙的假定,就連31個省市自治區(qū)的數(shù)據(jù)都假設(shè)是正態(tài)分布,這31個省市自治區(qū)的就不是樣本,更不用說是正態(tài)分布。

  科學(xué),對年輕人來說就是要明白這些基本的東西,太花哨的東西就沒意義了。你離得越遠(yuǎn)看得越清楚,站得越高對全局的了解越好,不要太具體了,不要迷信這些炒作的新名詞、新概念。用自己的大腦,用常識判斷,想想合不合理。過去某個人的經(jīng)驗是他的經(jīng)驗,不是你的經(jīng)驗,他在特定環(huán)境、特定時間有作用,如果你要跟風(fēng)就意味著永遠(yuǎn)是跟隨,也絕對不會有出息。

  個人要有快速的自學(xué)能力和對數(shù)據(jù)分析的愛好,我從來沒學(xué)過計算機,也沒學(xué)過計算機編程。英文都沒學(xué)過,全都是自學(xué)的,所以我對自學(xué)很相信,F(xiàn)在我教的東西都是最近這幾年的東西,我現(xiàn)在實際上比一個全職教師教的課還多,但是我教的東西好多都是前一天網(wǎng)上才出現(xiàn)的,我看到了覺得有價值,第二天就放到課堂上了。只有這樣,只有不斷的自學(xué),不斷的學(xué)習(xí)才能當(dāng)老師。如果你不斷的跟學(xué)生演示80年前的推導(dǎo)過程,只能顯示你的記憶力好,那不是好老師。

  三、判斷是否適合做數(shù)據(jù)科學(xué)家

  另外你是不是做數(shù)據(jù)科學(xué)家的材料?你專長于任何特定編程語言相比,泛型變成技巧更重要。最重要的素質(zhì)就是能快速學(xué)習(xí)東西,在這個時代技術(shù)發(fā)展的突飛猛進,語言很快會過時,新的語言會迅速普及,所以學(xué)習(xí)東西快的人比單獨領(lǐng)域的專家更有前途。我要看你這個人的潛力,而不是你知道什么。知識再多你也超不過一個硬盤吧?但是硬盤沒有創(chuàng)造力。

  如果你每天花大量的時間編程,分析控制面板上的數(shù)據(jù),獲得相關(guān)知識和信息,你對這樣的工作感興趣,你就適合干這行,F(xiàn)在我沒事就處理變成數(shù)據(jù)。如果僅僅是想拿高工資,那可能覺得這樣的日子就很苦了。實際上不光是這個工作,干任何工作,即使是坐牢你也要把它當(dāng)成樂趣,這個不是玩兒的。

  真正適合干這一行的人,會在業(yè)余時間里編程序、分析數(shù)據(jù),他的目的就是自娛自樂,而不是為了要拿著什么學(xué)位,拿到什么樣的頭銜,最終他自己把自己的價值就提高了。如果你愛的不是數(shù)據(jù)本身,而是它給你帶來的高薪,那你很難跟上來的人來競爭了。要學(xué)會干一行愛一行,每個人都應(yīng)該學(xué)會熱愛數(shù)據(jù),即使是為了自己的事業(yè)前途也應(yīng)該這樣想,為了自己的心里也應(yīng)該這樣想。

  還需要什么呢?剛才我說了,學(xué)習(xí)能力比知識更重要,歡迎挑戰(zhàn)、樂于攀登。有點挑戰(zhàn)的我就很高興,我相信很多人都這樣,這樣活著才有意義,像豬一樣的活著沒有意義。你像富二代開著寶馬到處飆車,他是找不到活著的意義啊,穿名牌什么的,是讓別人覺得你有點價值,實際上別人一看你更沒有價值了。馬克思的座右銘懷疑一切,在懷疑中成長。

  不要給自己貼標(biāo)簽,就是我學(xué)什么方向的,別的不搞,歲數(shù)大了,學(xué)不會了,很多人都有這樣的借口,這實際上是借口,我現(xiàn)在每天都在網(wǎng)上學(xué)東西,所以我現(xiàn)在教的東西總是新的,我的書一版再版,我現(xiàn)在大概寫了有30本書了,為什么再版,因為我發(fā)現(xiàn)原來的有錯或者不全面,我一定要把事情說的更透徹一點,說的更好一點。

  四、結(jié)尾

  什么人最快樂?被人需要,這是很重要的,就是你得有價值。因為你的專長,能力、善良、尊重、愛心、品質(zhì)、性格、智力、分享。在公司里跟人家能相處,至少你得是可愛的。還要關(guān)心他人,能讓別人快樂的人是快樂的。尊敬別人的人是快樂的,誠實坦蕩的人是快樂的,心胸開闊,不去計較一些小事情。最關(guān)鍵的就是愛人如己,你愛人不是因為他能愛你回來,也不是因為他可愛,而是對任何事情都尊重,這是最根本的一點。如果這點你要做到了,人人都能做到,那世界就太理想了。不管怎么樣,我希望大家能夠快樂。

【什么是數(shù)據(jù)分析和數(shù)據(jù)挖掘】相關(guān)文章:

數(shù)據(jù)挖掘論文07-15

數(shù)據(jù)挖掘論文07-16

數(shù)據(jù)挖掘論文(精品)07-29

(實用)數(shù)據(jù)挖掘論文07-29

數(shù)據(jù)分析報告02-02

數(shù)據(jù)挖掘論文常用15篇07-29

spss數(shù)據(jù)分析報告03-01

公司數(shù)據(jù)分析報告12-06

旅游管理下數(shù)據(jù)挖掘運用論文11-18

數(shù)據(jù)挖掘論文錦集(15篇)07-28