歷史的車輪滾滾向前,IT也是如此。
今天的IT有多龐大?
亞馬遜云科技已經(jīng)提供了超過475種不同的計(jì)算實(shí)例類型。Amazon S3現(xiàn)在存儲(chǔ)了超過100萬億個(gè)對(duì)象,Amazon EC2每天啟用超過6000萬個(gè)新實(shí)例。
納斯達(dá)克系統(tǒng)平時(shí)每秒處理300萬條信息。在高峰期12小時(shí)內(nèi)有600億條信息進(jìn)入交易系統(tǒng),以及超過1200億條信息導(dǎo)出系統(tǒng)。
IT蓬勃發(fā)展的結(jié)果就是——接下來的數(shù)據(jù)增速會(huì)更加迅猛,從現(xiàn)在到2024年的三年中創(chuàng)建的數(shù)據(jù)量將會(huì)超過過去30年創(chuàng)建的所有數(shù)據(jù)量。
亞馬遜全球副總裁、亞馬遜云科技大中華區(qū)執(zhí)行董事張文翊
數(shù)據(jù)到底有什么用?
數(shù)據(jù)應(yīng)用不是現(xiàn)代人的專利,早期數(shù)據(jù)應(yīng)用的一個(gè)代表人物是提燈女神——南丁格爾。
19世紀(jì)50年代克里米亞戰(zhàn)爭(zhēng)期間,南丁格爾通過查閱大量數(shù)據(jù)和檔案,發(fā)現(xiàn)英軍死亡的主要原因是戰(zhàn)場(chǎng)外感染疾病或者是傷者護(hù)理不當(dāng)后傷重致死,真正死在戰(zhàn)場(chǎng)上的人反而不多。她做了大量的數(shù)據(jù)收集工作,然后做了一個(gè)餅圖:藍(lán)色代表了疾病導(dǎo)致的死亡,紅色是受傷以后沒有得到適當(dāng)?shù)淖o(hù)理導(dǎo)致的死亡,而黑色是其他原因造成的死亡。通過分析她得到一個(gè)震驚的發(fā)現(xiàn):醫(yī)院里病死的士兵是戰(zhàn)爭(zhēng)中戰(zhàn)死士兵數(shù)量的十倍。基于這樣一個(gè)數(shù)據(jù)分析和洞察,她能夠成功地說服軍隊(duì)的高層快速行動(dòng)起來,去批準(zhǔn)了新的戰(zhàn)場(chǎng)護(hù)理傷員的衛(wèi)生標(biāo)準(zhǔn),同時(shí)運(yùn)送了更多的物資,保證了醫(yī)院的空氣和水的清潔。六個(gè)月后,英軍死亡率下降了90%以上。
每個(gè)企業(yè)或機(jī)構(gòu)中,無論是領(lǐng)導(dǎo)還是員工都可以借助這樣一個(gè)數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)的思維模式,改變解決問題的方式。因此,各行各業(yè)數(shù)據(jù)采集和分析的應(yīng)用探索頻頻落地,來自數(shù)據(jù)的挑戰(zhàn)也在悄然出現(xiàn)。
踏上數(shù)據(jù)的旅程!
數(shù)據(jù)天生是流動(dòng)的,數(shù)據(jù)一定在各個(gè)不同的存儲(chǔ)之間在移動(dòng)。
數(shù)據(jù)的流動(dòng)像一場(chǎng)數(shù)據(jù)的旅行,盡管每個(gè)企業(yè)或機(jī)構(gòu)的數(shù)據(jù)之旅是的,但是在這個(gè)旅程當(dāng)中有幾個(gè)大的數(shù)據(jù)??奎c(diǎn)基本都是一致的。
l 數(shù)據(jù)旅程的第一站:應(yīng)用程序數(shù)據(jù)庫。應(yīng)用程序的數(shù)據(jù)會(huì)流向數(shù)據(jù)庫來做存儲(chǔ)和處理。
l 數(shù)據(jù)旅程的第二站:數(shù)據(jù)湖。從各種來源的無論是結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù),通過數(shù)據(jù)湖去實(shí)現(xiàn)整合和管理。
l 數(shù)據(jù)旅程的第三站:分析引擎。當(dāng)數(shù)據(jù)整合之后,就可以通過各種專門構(gòu)建的分析工具把它真正從數(shù)據(jù)變成知識(shí)以及變成洞察。
l 數(shù)據(jù)旅程的第四站:機(jī)器學(xué)習(xí)。越來越多的用戶會(huì)把機(jī)器學(xué)習(xí)和人工智能加入到他數(shù)據(jù)旅程里邊不可或缺的一部分。
要想讓數(shù)據(jù)為人服務(wù),必須有人做好數(shù)據(jù)治理的工作,即:把正確的數(shù)據(jù)交給正確的人。數(shù)據(jù)管理者需要完全掌控?cái)?shù)據(jù)存儲(chǔ)的位置、明確誰有權(quán)訪問以及誰可以使用這個(gè)數(shù)據(jù)做什么。
亞馬遜云科技:護(hù)航你的數(shù)據(jù)之旅
亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理 顧凡
亞馬遜云科技的目標(biāo)就是希望客戶在整個(gè)數(shù)據(jù)旅程中不會(huì)在性能、成本、獲得見解的能力和創(chuàng)新速度方面做妥協(xié),所以亞馬遜云科技設(shè)計(jì)服務(wù)和產(chǎn)品的一個(gè)宗旨就是:
——專注在數(shù)據(jù)旅程的每一步去構(gòu)建適合你的工具,提供給你適合你的和正確的能力,保駕護(hù)航你的整個(gè)數(shù)據(jù)之旅。
亞馬遜云科技數(shù)據(jù)旅程的第一站:數(shù)據(jù)庫
挑戰(zhàn):傳統(tǒng)關(guān)系型數(shù)據(jù)庫打天下的時(shí)代已經(jīng)過去了。因?yàn)橛刑嗟默F(xiàn)代化的應(yīng)用,無論是像視頻、社交、出行類的這些App,應(yīng)付的數(shù)據(jù)級(jí)別都是PB甚至EB級(jí),并發(fā)甚至上億,這些都不是傳統(tǒng)數(shù)據(jù)庫能夠搞定的。
方案:專庫專用,所以如果想用托管的關(guān)系型數(shù)據(jù)庫,你可以選擇Amazon RDS,它可以兼容Oracle、SQL、MySQL、PostgreSQL所有這些引擎。如果想用MySQL和Postgre這樣開源的數(shù)據(jù)庫引擎但是又擔(dān)心性能和高可用達(dá)不到商用數(shù)據(jù)庫的級(jí)別,那就選云原生的Amazon Aurora。如果客戶想要一個(gè)托管的鍵值數(shù)據(jù)庫,而這個(gè)鍵值數(shù)據(jù)庫針對(duì)的是海量數(shù)據(jù)場(chǎng)景,要能夠提供毫秒級(jí)的響應(yīng),就選Amazon DynamoDB。如果需要托管的MongoDB,就選Amazon DocumentDB。如果需要一個(gè)內(nèi)存數(shù)據(jù)庫提供一個(gè)的低延遲,那就去用Amazon Elasticache或者Amazon DocumentDB。如果想要一個(gè)托管的圖數(shù)據(jù)庫,可以選用Amazon Neptune。
亞馬遜云科技數(shù)據(jù)旅程的第二站:數(shù)據(jù)湖
挑戰(zhàn):企業(yè)有來自不同數(shù)據(jù)庫、數(shù)據(jù)倉庫的多種數(shù)據(jù)源的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)源源不斷地涌入各種數(shù)據(jù)湖,數(shù)據(jù)湖的管理員可以針對(duì)不同的用戶、不同部門的業(yè)務(wù),在表和列一級(jí)上對(duì)訪問權(quán)限進(jìn)行的控制嗎?
方案:Amazon Lake Formation出了一個(gè)新的功能——Lake Formation行與單元級(jí)別安全的功能,該功能就能夠支持在行一級(jí)以及行和列交疊的單元級(jí)別去做數(shù)據(jù)訪問的權(quán)限控制。Lake Formation這樣一個(gè)新功可以基于管理員設(shè)定的規(guī)則去自動(dòng)地過濾數(shù)據(jù),向一組用戶去顯示經(jīng)過你過濾后的數(shù)據(jù)。
亞馬遜云科技數(shù)據(jù)旅程的第三站:分析引擎
挑戰(zhàn):現(xiàn)在你已經(jīng)準(zhǔn)備好分析你的數(shù)據(jù)了,你希望所有的時(shí)間都集中在應(yīng)用上。
方案:亞馬遜云科技的目標(biāo)是給客戶提供全棧的無服務(wù)器產(chǎn)品。2018年推出了Serverless的第一個(gè)關(guān)系型數(shù)據(jù)庫Amazon Aurora,把關(guān)系型數(shù)據(jù)庫做成無服務(wù)器化是非常有難度的。2020年推出了Amazon Aurora Serverless V2,真正可以在幾分之一秒,就把一個(gè)數(shù)據(jù)庫的交易數(shù)量一下從數(shù)百個(gè)事務(wù)擴(kuò)展到數(shù)萬個(gè)。亞馬遜云科技在今年re:Invent新發(fā)布了4個(gè)無服務(wù)器分析服務(wù),分別是Amazon Redshift,Amazon Elastic MapReduce, Amazon MSK和Amazon Kinesis stream。全棧的無服務(wù)器服務(wù)的提供一定是未來的趨勢(shì),未來一定會(huì)有越來越多的用戶希望端到端地用服務(wù)器構(gòu)建一個(gè)更復(fù)雜的業(yè)務(wù)應(yīng)用。
亞馬遜云科技數(shù)據(jù)旅程的第四站:機(jī)器學(xué)習(xí)
挑戰(zhàn):疫情給航班和旅客帶來很多不確定性,對(duì)于旅客來說頭疼的:總得知道那個(gè)國家的核酸檢測(cè)、疫苗接種需求和需要準(zhǔn)備的文檔,以及文檔是否在你登機(jī)前可以被驗(yàn)證。一旦人多了,如何處理這么大規(guī)模的需求?
方案:美聯(lián)航推出了旅行就緒中心一站式平臺(tái)叫做Travel-Reday Center,它可以做到什么呢?可以幫客戶輕松了解目的地所需的核酸檢測(cè)、疫苗接種需求,同時(shí)當(dāng)客戶大規(guī)模上傳檢測(cè)結(jié)果、疫苗接種記錄,包括給各國填寫的各種復(fù)雜的表格。借助亞馬遜的數(shù)據(jù)分析和亞馬遜的機(jī)器學(xué)習(xí)技術(shù),用機(jī)器學(xué)習(xí)的方式推理和鑒別?,F(xiàn)在75%的核酸檢測(cè)文檔和表格都可以機(jī)器自動(dòng)審核,極大提高了運(yùn)營效率。作為旅客的體驗(yàn)也很好,這就是美聯(lián)航如何利用機(jī)器學(xué)習(xí)提升客戶體驗(yàn)的一個(gè)案例。
亞馬遜云科技的工具箱里,底層是廣泛的機(jī)器學(xué)習(xí)框架和算力,它面向的是機(jī)器學(xué)習(xí)的專業(yè)從業(yè)者;中層是Amazon SageMaker這樣一個(gè)全托管的機(jī)器學(xué)習(xí)集成開發(fā)環(huán)境,它面向的是廣大的機(jī)器學(xué)習(xí)構(gòu)建者,也是面向多的人;工具箱上層提供的是開箱即用人工智能服務(wù),它面向的是應(yīng)用開發(fā)者。
在亞馬遜云科技的支持下,企業(yè)或機(jī)構(gòu)的數(shù)據(jù)可以在數(shù)據(jù)庫、數(shù)據(jù)湖、分析引擎和機(jī)器學(xué)習(xí)工具之間自由流動(dòng),充分融合,產(chǎn)生更好的價(jià)值,得到更好的洞察。
降低門檻 數(shù)據(jù)為王
亞馬遜云科技始終在強(qiáng)調(diào)數(shù)據(jù)是有旅程的,所以一直在致力于把數(shù)據(jù)庫、數(shù)據(jù)湖、數(shù)據(jù)分析、人工智能和機(jī)器學(xué)習(xí)更緊密地集成起來,降低門檻,為客戶的整個(gè)數(shù)據(jù)旅程提供全棧式服務(wù)。只有這樣,才能讓更多人不害怕技術(shù)的復(fù)雜度,從而真正利用技術(shù)來洞察和指導(dǎo)行動(dòng)。