大數據(big data),是指無法在可承受的時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數據集合。人們常常覺得大數據技術離我們很遠!事實上,大數據技術已經貫穿了我們生活中的各個領域,并在現實生活中創(chuàng)造了許多成功案例。在此佰佰安全網帶你詳細的了解一下大數據技術。
當今信息時代,信息數據成為當今時代最寶貴的財富。大數據技術也成為備受人們追捧的對象。許多人對于大叔據早有耳聞,但是究竟大數據是什么?相信很多人都無法給出準確的概念和定義。在此佰佰安全網為大家分享權威機構給出的概念定義,為你解答什么是大數據?
伴隨著互聯網技術的發(fā)展,社會的信息化、智能化的水平得到了顯著提升。信息成為了現今時代,最寶貴的資源和財富,大數據概念也由此不脛而走。雖然對于大數據的名稱我們是早有耳聞,但是如果要求你根據自己的理解,對于大數據進行概念定義,你是否有準確的答案呢?下面你為大家分享一些權威部門給出的大數據概念定義,為你解答什么是大數據!
大數據官方概念
"大數據"是一個體量特別大,數據類別特別大的數據集,并且這樣的數據集無法用傳統(tǒng)數據庫工具對其內容進行抓取、管理和處理。 "大數據"首先是指數據體量(volumes)?大,指代大型數據集,一般在10TB?規(guī)模左右,但在實際應用中,很多企業(yè)用戶把多個數據集放在一起,已經形成了PB級的數據量;其次是指數據類別(variety)大,數據來自多種數據源,數據種類和格式日漸豐富,已沖破了以前所限定的結構化數據范疇,囊括了半結構化和非結構化數據。接著是數據處理速度(Velocity)快,在數據量非常龐大的情況下,也能夠做到數據的實時處理。最后一個特點是指數據真實性(Veracity)高,隨著社交數據、企業(yè)內容、交易與應用數據等新數據源的興趣,傳統(tǒng)數據源的局限被打破,企業(yè)愈發(fā)需要有效的信息之力以確保其真實性及安全性。
百度知道:大數據概念
大數據(bigdata),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業(yè)經營決策更積極目的的資訊。大數據的4V特點:Volume、Velocity、Variety、Veracity。
互聯網周刊:大數據概念
"大數據"的概念遠不止大量的數據(TB)和處理大量數據的技術,或者所謂的"4個V"之類的簡單概念,而是涵蓋了人們在大規(guī)模數據的基礎上可以做的事情,而這些事情在小規(guī)模數據的基礎上是無法實現的。換句話說,大數據讓我們以一種前所未有的方式,通過對海量數據進行分析,獲得有巨大價值的產品和服務,或深刻的洞見,最終形成變革之力。
綜上,其實大數據就是一種基于數據采集、數據分析,進而得到其中目標人群的潛在需求,為進一步的營銷或是其他實踐做數據參考的這樣一個過程。
在大數據技術備受樹木的今天,人們對其名稱都是耳濡目染有所聽聞,但是對于其火熱的原因,卻是不知所然。在此,佰佰安全網匯總出大數據的顯著特點及作用詳述,一起來看一下這一高新技術的發(fā)展優(yōu)勢何在?
要理解大數據這一概念,首先就要從“大”字上去且是理解一番。大數據必然給予一定量的數據信息量,不過不同于以前的海量信息,其數據呈現出體量大、多樣性、價值密度低、速度快四個顯著特征,其突出優(yōu)勢也將一覽無余!
大數據顯著特點
第一,數據體量巨大。從TB級別躍升到PB乃至EB級別。要知道目前的數據量有多大,我們先來看看一組公式。
1024GB=1TB;1024TB=1PB;1024PB=1EB;1024 EB=1ZB;1024ZB=YB。到目前為止,人類生產的所有印刷材料的數據量是200PB,而歷史上全人類說過的所有的話的數據量大約是5EB。
第二,數據類型繁多。這種類型的多樣性也讓數據被分為結構化數據和非結構化數據。相對于以往便于存儲的以文本為主的結構化數據,越來越多的非結構化數據的產生給所有廠商都提出了挑戰(zhàn)。拜互聯網和通信技術近年來迅猛發(fā)展所賜,如今的數據類型早已不是單一的文本形式,除了網絡日志、音頻、視頻、圖片、地理位置信息等等多類型的數據對數據的處理能力提出了更高的要求。
第三,價值密度低。價值密度的高低與數據總量的大小成反比。以視頻為例,一部一小時的視頻,在連續(xù)不間斷監(jiān)控過程中,可能有用的數據僅僅只有一兩秒。如何通過強大的機器算法更迅速地完成數據的價值“提純”是目前大數據洶涌背景下亟待解決的難題。
第四,處理速度快。這是大數據區(qū)分于傳統(tǒng)數據挖掘最顯著的特征。根據IDC的一份名為“數字宇宙”的報告,預計到2020年全球數據使用量將會達到35.2ZB。在如此海量的數據面前,處理數據的效率就是企業(yè)的生命。
典型例子:還記得10年之前風靡一時的美國情景喜劇《六人行》(又名《老友記》)嗎?在這部美國NBC電視臺從1994年開播到2004年落幕的經典之作中,6位主人公從姓名、職業(yè)到個人喜好至今都還能被粉絲們津津樂道。
大數據技術是指從各種各樣類型的巨量數據中,快速獲得有價值信息的技術。解決大數據問題的核心是大數據技術。目前所說的"大數據"不僅指數據本身的規(guī)模,也包括采集數據的工具、平臺和數據分析系統(tǒng)。大數據研發(fā)目的是發(fā)展大數據技術并將其應用到相關領域,通過解決巨量數據處理問題促進其突破性發(fā)展。因此,大數據時代帶來的挑戰(zhàn)不僅體現在如何處理巨量數據從中獲取有價值的信息,也體現在如何加強大數據技術研發(fā),搶占時代發(fā)展的前沿。
大數據作用
大數據時代到來,認同這一判斷的人越來越多。那么大數據意味著什么,他到底會改變什么?僅僅從技術角度回答,已不足以解惑。大數據只是賓語,離開了人這個主語,它再大也沒有意義。我們需要把大數據放在人的背景中加以透視,理解它作為時代變革力量的所以然。
變革價值的力量
未來十年,決定中國是不是有大智慧的核心意義標準(那個"思想者"),就是國民幸福。一體現在民生上,通過大數據讓有意義的事變得澄明,看我們在人與人關系上,做得是否比以前更有意義;二體現在生態(tài)上,通過大數據讓有意義的事變得澄明,看我們在天與人關系上,做得是否比以前更有意義??傊屛覀儚那?span>10年的意義混沌時代,進入未來10年意義澄明時代。
變革經濟的力量
生產者是有價值的,消費者是價值的意義所在。有意義的才有價值,消費者不認同的,就賣不出去,就實現不了價值;只有消費者認同的,才賣得出去,才實現得了價值。大數據幫助我們從消費者這個源頭識別意義,從而幫助生產者實現價值。這就是啟動內需的原理。
變革組織的力量
隨著具有語義網特征的數據基礎設施和數據資源發(fā)展起來,組織的變革就越來越顯得不可避免。大數據將推動網絡結構產生無組織的組織力量。最先反映這種結構特點的,是各種各樣去中心化的WEB2.0應用,如RSS、維基、博客等。 大數據之所以成為時代變革力量,在于它通過追隨意義而獲得智慧。
大數據技術發(fā)展至今,已經有了完整的應用推廣流程。將其比喻成一種成型的信息加工流水線,一點都不夸張。咋次佰佰安全網為大家分享大數據技術應用的具體流程,同時分享大數據在我國現階段的應用領域。一起來看一下大數據是怎樣一種神奇的技術。
大數據技術的應用推廣過程,就類似于是一種信息處理流水線。從采集、存取、搭建架構到中期數據處理、統(tǒng)計分析、數據挖掘以及模型預測,最后實現結果預測。
大數據技術應用流程
數據采集:ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
數據存取:關系數據庫、NOSQL、SQL等。
基礎架構:云存儲、分布式文件存儲等。
數據處理:自然語言處理(NLP,NaturalLanguageProcessing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機"理解"自然語言,所以自然語言處理又叫做自然語言理解(NLU,NaturalLanguage Understanding),也稱為計算語言學(Computational Linguistics。一方面它是語言信息處理的一個分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心課題之一。
統(tǒng)計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優(yōu)尺度分析)、bootstrap技術等等。
數據挖掘:分類 (Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規(guī)則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數據挖掘涉及的技術方法很多,有多種分類法。
根據挖掘任務可分為分類或預測模型發(fā)現、數據總結、聚類、關聯規(guī)則發(fā)現、序列模式發(fā)現、依賴關系或依賴模型發(fā)現、異常和趨勢發(fā)現等等;根據挖掘對象可分為關系數據庫、面向對象數據庫、空間數據庫、時態(tài)數據庫、文本數據源、多媒體數據庫、異質數據庫、遺產數據庫以及環(huán)球網Web
根據挖掘方法分,可粗分為:機器學習方法、統(tǒng)計方法、神經網絡方法和數據庫方法。機器學習中,可細分為:歸納學習方法(決策樹、規(guī)則歸納等)、基于范例學習、遺傳算法等。統(tǒng)計方法中,可細分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數判別等)、聚類分析(系統(tǒng)聚類、動態(tài)聚類等)、探索性分析(主元分析法、相關分析法等)等。
神經網絡方法中,可細分為:前向神經網絡(BP算法等)、自組織神經網絡(自組織特征映射、競爭學習等)等。數據庫方法主要是多維數據分析或OLAP方法,另外還有面向屬性的歸納方法。
模型預測:預測模型、機器學習、建模仿真。
結果呈現:云計算、標簽云、關系圖等。
大數據應用領域
在我國,大數據將重點應用于以下三大領域:商業(yè)智能、政府決策、公共服務。例如:商業(yè)智能技術,政府決策技術,電信數據信息處理與挖掘技術,電網數據信息處理與挖掘技術,氣象信息分析技術,環(huán)境監(jiān)測技術,警務云應用系統(tǒng)(道路監(jiān)控、視頻監(jiān)控、網絡監(jiān)控、智能交通、反電信詐騙、指揮調度等公安信息系統(tǒng)),大規(guī)模基因序列分析比對技術,Web信息挖掘技術,多媒體數據并行化處理技術,影視制作渲染技術,其他各種行業(yè)的云計算和海量數據處理應用技術等。
大數據時代數據對于決策的重要性 根據上述觀察,即便我們進入了大數據時代,意識到數據對于決策的重要性,這是好事,但是如果不能意識到數據本身帶來的種種問題,那就無從談起如何使用。
一、統(tǒng)計現象可能是病態(tài)的;
我們經常得到一些用戶的消費或者娛樂行為,但是這些行為可能是病態(tài)的。這里我就舉兩個病態(tài)的習慣現象作為例子說明。有些用戶具有一種病態(tài)的消費習慣,習慣于同時消費一定數量的產品,或者某種特定的產品組合。比如,有些肥胖癥病人,喜歡吃高熱量食品,當然就喜歡看到高熱量食品擺放在一起,但是這樣就無形中鼓勵了對這些用戶的不良消費習慣。另一個例子是網絡文學?,F在的網絡文學可算是世界奇觀,大量的穿越,意淫小說充斥網絡。我喜歡看電子書,可是從網上很難看到像樣的新書可以閱讀,大多數還是從正規(guī)出版社進行購買紙質書閱讀。這種一味迎合特定讀者群的網絡文學現象,相當程度上進一步惡化了當前的教育生態(tài)。那些網絡文學只會傷害青少年的閱讀品味,甚至走上犯罪的道路。當我們看到了一種統(tǒng)計現象,我們僅僅是看到了當前的一種規(guī)律,但是這種規(guī)律是否是病態(tài)的,還是要進一步分析,我們不能因為可以利用這種規(guī)律掙錢,就可以推波助瀾。
二、統(tǒng)計現象可能是暫時的;
中國是在快速發(fā)展的過程中,由于歷史的原因和社會發(fā)展的階段性原因,很容易出現一窩蜂的現象,統(tǒng)計規(guī)律有時候表現的非常明顯。這給我們一個假象,認為這可能是社會發(fā)展的未來趨勢。但是我們忽視了中國社會的特殊性,這種特殊性在于很多消費習慣是一種補償性消費習慣,而對于補償性消費心理來說,可能是過度夸張的。比如,飲酒的習慣,在中國過去,飲酒僅僅是生活中很奢侈的一部分,因此飲酒的習慣對于身體的影響并不很大,但是現在物質豐富了,人們還按照過去的習慣進行飲酒,但是數量大大增加了,于是身體的健康受到的非常大的影響。最近我的一些朋友們陸續(xù)開始戒酒,因為他們已經發(fā)現,原來認為是友好的表現,現在可能被認為是不禮貌的,比如勸酒。還有就是房地產和汽車消費。除了投資和投機心理之外,中國人對于房子有著獨特的熱忱,其原因在于中國人還從來沒有真正擺脫居住的窘迫,于是大家都非常渴望有自己的住房。汽車也一樣,這是補償性消費的過度行為表現。假如我們去迎合這種暫時的現象,我們會助推一些病態(tài)行為,導致社會成本急劇上升,尤其是整體資本成本更為夸張。
三、統(tǒng)計現象可能是局部的;
有時候去吃飯,朋友會通過網上預訂,但是去吃了之后往往不如意。其主要原因在于,統(tǒng)計數據的來源并不是全部消費人群。喜歡上網的人群是受限制的,上網又喜歡點評的人更是其中一些樂于此事的人,他們并不能代表所有的消費群體。比如,喜歡點評吃飯的人,往往是學生和年輕的職工,他們收入少,好奇心重,因此對于這種既便宜又能品嘗到一定品味的信息來源比較喜歡,這種統(tǒng)計結果對于其他人群可能就完全沒有參考價值。還比如,網上有些投票活動,其結果的不可靠跟吃飯的效果一樣。我們不能說網上的統(tǒng)計結果沒有意義,但是也不能夸大這種只有部分代表性的結果,否則我們可能會被誤導。想到前段時間那些惡意的大V們被封殺,也是類似的現象。之所以大V們有一定的市場,還是因為我們缺少對于網絡輿論的全面認識。聽到一些號稱鼎鼎大名的一些網絡名人,我也覺得自己有點OUT了,因為作為經常使用網絡,并且自認為不那么落伍的人,居然從來就沒有注意到這些人。
四、統(tǒng)計現象可能是曲解的;
很多統(tǒng)計現象需要進一步解釋,而不能看直接的結果,這些統(tǒng)計結果很多都存在誤讀現象。有個例子能夠很好地證明。英國二戰(zhàn)時期跟德國進行空戰(zhàn),每次戰(zhàn)斗機回來都發(fā)現,機翼上有很多槍眼,大多數工程師認為機翼是很容易受到攻擊的地方,需要進行防護,可是增加了防護之后,發(fā)現飛機的損失率并沒有降低,反而提高了,因為增加了防護,降低了飛機的靈活性和航程。原來是曲解了那個統(tǒng)計規(guī)律,因為在戰(zhàn)損的飛機里面,有許多飛機沒有回來,其被擊落的真正原因并沒有被統(tǒng)計,因此主要問題沒有發(fā)現。相反,機翼受損還能飛回來,只能說明機翼被攻擊部分本身的影響并不大?!敖y(tǒng)計學家 Wald 建議統(tǒng)計飛機上彈孔(槍眼)的位置,有了足夠的樣本后,然后在沒有槍眼的部位加強防護,因為這些部位被擊中的飛機都沒有返航,最后效果很好”(參考第三樓發(fā)言補充)。這個統(tǒng)計結果是不可信的,至少不是最重要的因素。
五、統(tǒng)計現象可能是濫用的。
根據數學中的大數定律,樣本數量和范圍需要超過一定程度才能得到有價值的統(tǒng)計規(guī)律,樣本的數量和范圍取決于模型本身的復雜度。可是在現實中,即便是在很嚴格的科學研究領域,統(tǒng)計被濫用的現象處處存在。大多數情況下可能是如下景象,一個科研人員或者工作人員,得到了一批樣本,根據自己的模型或者理論假設進行簡單的統(tǒng)計分析,不管是定量的還是定性的,得到一個結果,于是結論就出爐了,甚至發(fā)表在了影響因子很高的雜志上。可是就我多年來參加過的答辯會或者成果介紹的過程來看,相當數量的結果是不可靠的,甚至沒有參考價值,因為那些樣本數量少的可憐。比如,對于一個復雜現象,就用幾十個樣本做一個復雜的結論,這就充滿了風險,沒有檢驗過程,沒有驗證過程,這些結果可能會大大誤導我們對于自然的認識。另外,在統(tǒng)計結果分析的過程中,人為的選擇樣本,人為的改造樣本,這些例子已經屢見不鮮。
根據上述觀察,即便我們進入了大數據時代,意識到數據對于決策的重要性,這是好事,但是如果不能意識到數據本身帶來的種種問題,那就無從談起如何使用。即便是統(tǒng)計結果有一定的參考價值,我們也不能一味的迎合這些所謂的習慣和趨勢,因為這些習慣和趨勢可能將我們引入一個不可持續(xù)的發(fā)展過程。從國家層面鼓勵科學使用大數據結果的研究是非常必要的。個人或者商業(yè)團體往往會傾向于自我或者本組織的利益,不大會真正從社會總成本和總的發(fā)展健康度角度看問題。這些負面影響的研究是一種公益事業(yè),只能是政府牽頭來主導,并且有意識的引導這種現象。對于一些沒有經過科學驗證的統(tǒng)計結果進行甄別和檢驗。但當我們看到一種規(guī)律或者現象,我們能夠科學的判斷這種規(guī)律是否為病態(tài)的,還是暫時的,還是局部的,還是被曲解的,還是被濫用的結果,是非常必要的。在當前迎合為主的情況下,不會有好的結果,在大多數情況下,統(tǒng)計結果可能給我們帶來的不是商業(yè)機會,而是危險的前兆。誤導性的統(tǒng)計結果甚至會引起不必要的社會心理暗示,從而產生嚴重的社會大眾效果。也許大數據統(tǒng)計分析的第三方檢驗會是未來的一個很重要的商業(yè)機會。
數據挖掘中易犯的十大錯誤及解決方法缺乏數據(Lack Data)對于分類問題或預估問題來說,常常缺乏準確標注的案例。例如:
數據挖掘中易犯的十大錯誤及解決方法
0. 缺乏數據(Lack Data)
對于分類問題或預估問題來說,常常缺乏準確標注的案例。
例如:
-欺詐偵測(Fraud Detection):在上百萬的交易中,可能只有屈指可數的欺詐交易,還有很多的欺詐交易沒有被正確標注出來,這就需要在建模前花費大量人力來修正。
-信用評分(Credit Scoring):需要對潛在的高風險客戶進行長期跟蹤(比如兩年),從而積累足夠的評分樣本。
1. 太關注訓練(Focus on Training)
IDMer:就象體育訓練中越來越注重實戰(zhàn)訓練,因為單純的封閉式訓練常常會訓練時狀態(tài)神勇,比賽時一塌糊涂。
實際上,只有樣本外數據上的模型評分結果才真正有用?。ǚ駝t的話,直接用參照表好了?。?
例如:
-癌癥檢測(Cancer detection):MD Anderson的醫(yī)生和研究人員(1993)使用神經網絡來進行癌癥檢測,驚奇地發(fā)現,訓練時間越長(從幾天延長至數周),對訓練集的性能改善非常輕微,但在測試集上的性能卻明顯下降。
-機器學習或計算機科學研究者常常試圖讓模型在已知數據上表現最優(yōu),這樣做的結果通常會導致過度擬合(overfit)。
解決方法:
解決這個問題的典型方法是重抽樣(Re-Sampling)。重抽樣技術包括:bootstrap、cross-validation、jackknife、leave-one-out…等等。
2. 只依賴一項技術(Rely on One Technique)
IDMer:這個錯誤和第10種錯誤有相通之處,請同時參照其解決方法。沒有對比也就沒有所謂的好壞,辯證法的思想在此體現無遺。
“當小孩子手拿一把錘子時,整個世界看起來就是一枚釘子?!币胱尮ぷ鞅M善盡美,就需要一套完整的工具箱。
不要簡單地信賴你用單個方法分析的結果,至少要和傳統(tǒng)方法(比如線性回歸或線性判別分析)做個比較。
研究結果:按照《神經網絡》期刊的統(tǒng)計,在過去3年來,只有1/6的文章中做到了上述兩點。也就是說,在獨立于訓練樣本之外的測試集上進行了開集測試,并與其它廣泛采用的方法進行了對比。
解決方法:
使用一系列好的工具和方法。(每種工具或方法可能最多帶來5%~10%的改進)。
3. 提錯了問題(Ask the Wrong Question)
IDMer:一般在分類算法中都會給出分類精度作為衡量模型好壞的標準,但在實際項目中我們卻幾乎不看這個指標。為什么?因為那不是我們關注的目標。
a)項目的目標:一定要鎖定正確的目標
例如:
欺詐偵測(關注的是正例!)(Shannon實驗室在國際長途電話上的分析):不要試圖在一般的通話中把欺詐和非欺詐行為分類出來,重點應放在如何描述正常通話的特征,然后據此發(fā)現異常通話行為。
b)模型的目標:讓計算機去做你希望它做的事
大多數研究人員會沉迷于模型的收斂性來盡量降低誤差,這樣讓他們可以獲得數學上的美感。但更應該讓計算機做的事情應該是如何改善業(yè)務,而不是僅僅側重模型計算上的精度。
4. 只靠數據來說話(Listen (only) to the Data)
IDMer:“讓數據說話”沒有錯,關鍵是還要記得另一句話:兼聽則明,偏聽則暗!如果數據+工具就可以解決問題的話,還要人做什么呢?
4a.投機取巧的數據:數據本身只能幫助分析人員找到什么是顯著的結果,但它并不能告訴你結果是對還是錯。
4b.經過設計的實驗:某些實驗設計中摻雜了人為的成分,這樣的實驗結果也常常不可信。
5. 使用了未來的信息(Accept Leaks from the Future)
IDMer:看似不可能,卻是實際中很容易犯的錯誤,特別是你面對成千上萬個變量的時候。認真、仔細、有條理是數據挖掘人員的基本要求。
預報(Forecast)示例:預報芝加哥銀行在某天的利率,使用神經網絡建模,模型的準確率達到95%。但在模型中卻使用了該天的利率作為輸入變量。
金融業(yè)中的預報示例:使用3日的移動平均來預報,但卻把移動平均的中點設在今天。
解決方法:
要仔細查看那些讓結果表現得異常好的變量,這些變量有可能是不應該使用,或者不應該直接使用的。
給數據加上時間戳,避免被誤用。
6. 拋棄了不該忽略的案例(Discount Pesky Cases)
IDMer:到底是“寧為雞頭,不為鳳尾”,還是“大隱隱于市,小隱隱于野”?不同的人生態(tài)度可以有同樣精彩的人生,不同的數據也可能蘊含同樣重要的價值。
異常值可能會導致錯誤的結果(比如價格中的小數點標錯了),但也可能是問題的答案(比如臭氧洞)。所以需要仔細檢查這些異常。
研究中最讓激動的話語不是“啊哈!”,而是“這就有點奇怪了……”
數據中的不一致性有可能會是解決問題的線索,深挖下去也許可以解決一個大的業(yè)務問題。
例如:
在直郵營銷中,在對家庭地址的合并和清洗過程中發(fā)現的數據不一致,反而可能是新的營銷機會。
解決方法:
可視化可以幫助你分析大量的假設是否成立。
7. 輕信預測(Extrapolate)
IDMer:依然是辯證法中的觀點,事物都是不斷發(fā)展變化的。
人們常常在經驗不多的時候輕易得出一些結論。
即便發(fā)現了一些反例,人們也不太愿意放棄原先的想法。
維度咒語:在低維度上的直覺,放在高維度空間中,常常是毫無意義的。
解決方法:
進化論。沒有正確的結論,只有越來越準確的結論。
8. 試圖回答所有問題(Answer Every Inquiry)
IDMer:有點像我爬山時鼓勵自己的一句話“我不知道什么時候能登上山峰,但我知道爬一步就離終點近一步。”
“不知道”是一種有意義的模型結果。
模型也許無法100%準確回答問題,但至少可以幫我們估計出現某種結果的可能性。
9. 隨便地進行抽樣(Sample Casually)
9a 降低抽樣水平。例如,MD直郵公司進行響應預測分析,但發(fā)現數據集中的不響應客戶占比太高(總共一百萬直郵客戶,其中超過99%的人未對營銷做出響應)。于是建模人員做了如下抽樣:把所有響應者放入樣本集,然后在所有不響應者中進行系統(tǒng)抽樣,即每隔10人抽一個放入樣本集,直到樣本集達到10萬人。但模型居然得出如下規(guī)則:凡是居住在Ketchikan、Wrangell和Ward Cove Alaska的人都會響應營銷。這顯然是有問題的結論。(問題就出在這種抽樣方法上,因為原始數據集已經按照郵政編碼排序,上面這三個地區(qū)中不響應者未能被抽取到樣本集中,故此得出了這種結論)。
解決方法:“喝前搖一搖!”先打亂原始數據集中的順序,從而保證抽樣的隨機性。
9b 提高抽樣水平。例如,在信用評分中,因為違約客戶的占比一般都非常低,所以在建模時常常會人為調高違約客戶的占比(比如把這些違約客戶的權重提高5倍)。建模中發(fā)現,隨著模型越來越復雜,判別違約客戶的準確率也越來越高,但對正??蛻舻恼`判率也隨之升高。(問題出在數據集的劃分上。在把原始數據集劃分為訓練集和測試集時,原始數據集中違約客戶的權重已經被提高過了)
解決方法:先進行數據集劃分,然后再提高訓練集中違約客戶的權重。
近兩天,伴隨著互聯網技術的發(fā)展,大叔局的概念逐漸被人們所熟知。但是具體大數據是什么?有何特殊之處?還有許多人們還知之甚少!在此佰佰安全網為大家匯總了一些大數據成功運作的典型案例,你會發(fā)現大數據并非是鏡花水月,它就在我們身邊。
近年來,“大數據”逐漸被人們熟知??梢哉f“大數據”在大眾面前呈現出一種高冷范兒,人們都知道它很火,但是似乎一直離我們很遠。下面我們通過一些經典的成功案例,為大家解答其強大之處何在?事實上大數據技術一直在我們身邊。
大數據運作成功案例
一、沃爾瑪啤酒與尿布
大數據應用的典型之作:全球零售業(yè)巨頭沃爾瑪在對消費者購物行為分析時發(fā)現,男性顧客在購買嬰兒尿片時,常常會順便搭配幾瓶啤酒來犒勞自己,于是嘗試推出了將啤酒和尿布擺在一起的促銷手段。沒想到這個舉措居然使尿布和啤酒的銷量都大幅增加了。如今,“啤酒+尿布”的數據分析成果早已成了大數據技術應用的經典案例,被人津津樂道。
二、數據新聞讓英國撤軍
2010年10月23日《衛(wèi)報》利用維基解密的數據做了一篇“數據新聞”。將伊拉克戰(zhàn)爭中所有的人員傷亡情況均標注于地圖之上。地圖上一個紅點便代表一次死傷事件,鼠標點擊紅點后彈出的窗口則有詳細的說明:傷亡人數、時間,造成傷亡的具體原因。密布的紅點多達39萬,顯得格外觸目驚心。一經刊出立即引起朝野震動,推動英國最終做出撤出駐伊拉克軍隊的決定。
三、“魔鏡”預知石油市場走向
如果你對“魔鏡”還停留在“魔鏡魔鏡,告訴我誰是世界上最美的女人”,那你就真的out了。“魔鏡”不僅僅是童話中王后的寶貝,而且是真實世界中的一款神器。其實,“魔鏡”是蘇州國云數據科技公司的一款牛逼的大數據可視化產品,而且是國內首款喔。
在現在,“魔鏡”可以通過數據的整合分析可視化不僅可以得出誰是世界上最美的女人,還能通過價量關系得出市場的走向。在不久前,“魔鏡”幫助中石等企業(yè)分析數據,將數據可視化,使企業(yè)科學的判斷、決策,節(jié)約成本,合理配置資源,提高了收益。
四、Google成功預測冬季流感
2009年,Google通過分析5000萬條美國人最頻繁檢索的詞匯,將之和美國疾病中心在2003年到2008年間季節(jié)性流感傳播時期的數據進行比較,并建立一個特定的數學模型。最終google成功預測了2009冬季流感的傳播甚至可以具體到特定的地區(qū)和州。
五、大數據與喬布斯癌癥治療
喬布斯是世界上第一個對自身所有DNA和腫瘤DNA進行排序的人。為此,他支付了高達幾十萬美元的費用。他得到的不是樣本,而是包括整個基因的數據文檔。醫(yī)生按照所有基因按需下藥,最終這種方式幫助喬布斯延長了好幾年的生命。
六、奧巴馬大選連任成功
2012年11月奧巴馬大選連任成功的勝利果實也被歸功于大數據,因為他的競選團隊進行了大規(guī)模與深入的數據挖掘。時代雜志更是斷言,依靠直覺與經驗進行決策的優(yōu)勢急劇下降,在政治領域,大數據的時代已經到來;各色媒體、論壇、專家鋪天蓋地的宣傳讓人們對大數據時代的來臨興奮不已,無數公司和創(chuàng)業(yè)者都紛紛跳進了這個狂歡隊伍。
七、微軟大數據成功預測奧斯卡21項大獎
2013年,微軟紐約研究院的經濟學家大衛(wèi)羅斯柴爾德(David Rothschild)利用大數據成功預測24個奧斯卡獎項中的19個,成為人們津津樂道的話題。今年羅斯柴爾德再接再厲,成功預測第86屆奧斯卡金像獎頒獎典禮24個獎項中的21個,繼續(xù)向人們展示現代科技的神奇魔力。
大數據技術應用領域十分普遍,基于大量數據信息源的基礎上,在預測挖掘的基礎上,人們常??梢詮闹邪l(fā)現數據背后的潛在需求及現象,這也是大數據可以成功預言的原因所在。
科學知識改變你我生活普及安全暢享平安幸福
佰佰安全網原創(chuàng)出品公眾號: bbanqw