23 fordele og ulemper ved Amazon Redshift

Amazon Redshift er en datalagertjeneste i petabyte-skala placeret i skyen, der administreres fuldt ud for dig. De giver dig mulighed for at starte med flere hundrede gigabyte data og derefter skalere op efter behov for din virksomhed. Denne struktur giver dig mulighed for at få ny indsigt ved at erhverve data om dine kunder, forretningsmuligheder og andre daglige behov.

Kom i gang med denne mulighed ved at lancere et sæt noder. Disse er kendt som en “Amazon Redshift -klynge.” Når du har klargjort klyngen, kan dine data uploades. Derfra kan du køre analyseforespørgsler på din informationspakke. Den bruger de samme SQL-baserede værktøjer, som de fleste virksomheder bruger til interne behov, hvilket gør adgang til dine data hurtigere og mere sikker, fordi du ikke behøver at være vært for dem på din fysiske placering.

I skrivende stund tilbyder Amazon alle nye Redshift-brugere en gratis 2-måneders prøveversion af denne datalagertjeneste for at se, om den opfylder deres behov. Hvis du starter i det små, starter prissætningen efter den gratis prøveperiode på kun $ 0,25 pr. Time og går ned til kun $ 250 pr. År for hver terabyte, du gemmer. Det gør det til cirka 10% af omkostningerne ved en lignende løsning.

Hvis du leder efter datalagringsløsninger, der er hurtige og skalerbare i dag, er det fordele og ulemper ved Amazon Redshift at overveje.

Liste over Amazon Redshift -fordele

1. Det er en af ​​de hurtigste løsninger af sin art, der findes i dag.

Når det kommer til at uploade dine data eller forespørge dem til analyse- eller rapporteringsformål, er der færre konkurrenter, der kan matche, hvad Redshift tilbyder. Den bruger MPP -arkitekturen (Massively Parallel Processing) til at indlæse dine data med hastigheder, du ikke vil tro. Det vil også parallelisere og distribuere dine forespørgsler på tværs af flere noter for hurtig adgang, når det er nødvendigt. Du har også mulighed for med denne service at bruge SSD-baserede datalagre, hvilket gør det muligt at køre en kompleks forespørgsel uden en massiv tidsforpligtelse.

2. Modtag en højtydende lagerløsning.

Redshifts design giver dig mulighed for at drage fordel af parallelisering i dine sikkerhedskopierings- og gendannelsesoperationer, ud over de datalastkrav, du har. Denne struktur giver dig effektive datakomprimeringshastigheder, så du fuldt ud kan optimere dine forespørgsler og distribution, uanset hvor meget data du gemmer. Disse fordele er muliggjort af den søjleformede opbevaringsdatabase, der tilbydes dig, optimeret til gentagne data. I / O -operationer reduceres på disken, hvilket forbedrer dens ydeevne som følge heraf.

3. Modtag adgang til en maskinlæringsproces.

Redshift bruger maskinlæring til at sikre, at du får et maksimum baseret på den arbejdsbyrde, du har. Det gør dette ved at anvende sofistikerede algoritmer, der forudsiger udførelsestiden for indgående forespørgsler. Derefter tildeler du dem til en hvilken som helst kø, der optimerer behandlingshastigheden for dig. Det betyder, at dine rapporter eller dashboardforespørgsler går gennem en hurtig kø i stedet for en standard routingstruktur, der optimerer behandlingshastigheden for at levere øjeblikkelige resultater.

4. Tilbyder resultater caching.

Redshift bruger også resultatcaching til at give en responstid på mindre end et sekund, når der er gentagne forespørgsler. Visualiserede business intelligence -værktøjer og dashboards, der kører gentagne forespørgsler, får et betydeligt præstationsforøgelse på grund af denne struktur. Søger i cachen for at afgøre, om en tidligere kørsel skabte et cachelagret resultat. Hvis der er en, og dataene ikke er ændret, vil du se det cachelagrede resultat i stedet for at køre forespørgslen igen.

5. Du vil opdage, at det er meget let at implementere.

Amazon Redshift er en af ​​de letteste datalagringsløsninger, der er tilgængelige i dag til konfiguration og drift fra et forretningsmæssigt perspektiv. Alt du skal gøre er at logge ind på din AWS -konsol og derefter følge de tilstedeværende kommandoer for at implementere dit nye datalager. Det vil automatisk tilvejebringe din infrastruktur på det tidspunkt. Mange af de administrative opgaver er også automatiserede, herunder replikering og backup, hvilket betyder, at du kan fokusere på dine data i stedet for at administrere dem. Du kan også foretage justeringer, så de passer til specifikke arbejdsbyrder.

6. Integreres med tredjepartsværktøjer.

Du kan vælge at forbedre dine interaktioner med Redshift ved at arbejde med en omfattende liste over tredjepartsleverandører, der hjælper med at transformere og visualisere dine data. Der er business intelligence -partnere, dataintegrationseksperter, rådgivning og assistance til systemintegration og muligheder for forespørgsel og datamodellering, alle med certificerede løsninger, der garanteret fungerer sammen med Amazon.

7. Du vil opdage, at det er en rentabel løsning for din virksomhed.

Hvis du vil starte i det små, kan du drage fordel af den uforpligtende sats på $ 0,25 pr. Time. Redshift er den eneste udbyder af sin art, der tilbyder on-demand priser uden forudgående omkostninger. Men hvis du forpligter dig til en 3-årig periode, kan du spare op til 75% på dine skybaserede datalagringsbehov. Din timepris er baseret på antallet og typen af ​​noder i din klynge. Selv med tæt opbevaring er den maksimale pris for nuværende generations produkter omkring $ 7 pr. Time.

8. Du kan vælge din nodetype, når du arbejder med Amazon Redshift.

Der er to typer noder til rådighed for at optimere dine datalagringsbehov, hvis du vælger Amazon Redshift. Den første mulighed, kaldet Dense Compute, giver dig mulighed for at oprette en højtydende løsning til hurtige CPU’er, solid-state-drev og store mængder hukommelse. Du kan skalere endnu mere for at bruge tætte lagerknudepunkter, der tilbyder en større harddisk (HDD) til lavere priser. Hvis du vil skifte mellem noder eller skalere din klynge, er det kun et enkelt API -opkald eller et par klik fra din konsol, der skal til for at få jobbet udført.

9. Giver en konsekvent sikkerhedskopi af dine data.

Amazon Redshift tilbyder en konsekvent sikkerhedskopi af dine data og filer. Det genopretter dem også, når der kan opstå fejl eller skader. Underopgaver, der er tilgængelige for dig i dette område, omfatter hjælp til datagendannelse, der er kontinuerlig og automatisk, selvom et drev eller en knude fejler. De hjælper med en backup til katastrofegendannelse for at begrænse mængden af ​​datatab, du oplever. Gendannelse af data sker også fra forskellige regioner, afhængigt af hvordan du opretter din konto. Disse fordele gælder, selvom du går ud over den første perabyte, du gemmer i skyen med denne service.

10. Modtag end-to-end kryptering med Amazon Redshift.

Alt du skal gøre er at konfigurere din parameterkonfigurationsejendom til at bruge SSL til at forbedre datasikkerheden under transport. Dette datalagringssystem bruger også AES-256 hardware-accelereret kryptering til dine data, når de er i ro. Når du vælger kryptering til dine data i hvile, modtager alt, hvad der skrives til disken, inklusive eventuelle sikkerhedskopier, du har, denne krypteringsfordel. Redshift håndterer nøglehåndtering som standard.

11. Tilbyder netværksisolering.

At vælge Amazon Redshift giver dig fordelen ved at konfigurere dine firewallregler til at styre netværksadgang til de klynger, der udgør dit datalager. Du kan køre Redshift i Amazon VPC for at isolere dine klynger gennem dit eget virtuelle netværk. Du kan derefter forbinde dette til din eksisterende it -infrastruktur, hvis du ønsker at bruge en krypteret IPsec VPN for at maksimere kontinuerlig adgang til data.

12. Du kan revidere alle dine API -opkald via Redshift.

Fordi Amazon Redshift integreres med CloudTrail, kan du kontrollere alle API -opkald foretaget via systemet. Registrerer alle dine SQL -operationer, herunder forespørgsler, databaseændringer og forbindelsesforsøg. Du kan derefter få adgang til oplysningerne ved hjælp af SQL -forespørgsler mod systemtabellerne eller vælge at downloade dem til Amazon S3 på et sikkert sted. Systemet overholder SOC1, SOC2 og SOC3. Det opfylder også PCI DSS Level 1 -krav.

13. Integreres indbygget med AWS analytics økosystem.

Når du vælger Amazon Redshift til dine datalagringsbehov, vil du opdage, at det fuldt ud kan integreres med AWS -analyseøkosystemet.

• Du kan bruge AWS Lim til at udtrække, transformere og indlæse data i Redshift.

• Optag, transformer og upload streamingdata til Redshift ved hjælp af Amazon Kinesis Data Firehose til analyse i næsten realtid.

• Opret dashboards, visualiseringer og rapporter via Amazon QuickSight.

Du kan endda bruge AWS Database Migration Service, hvis du vil forbedre din dataoverførselshastighed til Redshift med en 6-måneders gratis prøveperiode på deres DMS-service.

14. Du har adgang til et stort antal træningsmaterialer til Amazon Redshift.

Hvis du åbner siden Amazon Redshift -dokumenter, finder du en række forskellige ressourcer til rådighed for dig som ny bruger. Der er et komplet overblik over, hvordan man administrerer systemet, når man har behov for datalagring. Du har adgang til en “komme i gang” -guide, der guider dig gennem alle de trin, der kræves for at oprette klynger, databasetabeller og testforespørgsler. En klyngeadministrationsguide viser dig, hvordan du håndterer klynger korrekt, mens en databaseudviklerguide giver forklaringer om, hvordan du opbygger, designer, forespørger og vedligeholder de oplysninger, der danner grundlaget for dit datalager.

Liste over ulemper ved Amazon Redshift

1. Det kræver, at du håndhæver entydighed fra din side.

I øjeblikket er der ingen tilgængelige rammer i skrivende stund, der tillader Amazon Redshift at hjælpe dig med at opretholde dataintegritet ved at bruge unikke indekser. Du er ansvarlig for denne struktur ved afslutningen af ​​datalagringsprocessen. Det betyder, at der ikke kontrolleres værdierne i dine udtryk eller kolonner for at afgøre, om indeksnøglen er kompromitteret på nogen måde.

“Check” og “unikke” begrænsninger understøttes ikke på grund af denne struktur. Det betyder, at det ikke kan erklæres, hvilket skaber nogle begrænsninger for nogle agenturer.

2. Understøttes kun til parallel indlæsning med specifikke data.

Parallel upload understøttes for DynamoDB, SE og Amazon EMR, når du vælger Redshift som din skybaserede datalagringsløsning. Disse strukturer bruger MPP, der giver dig de høje hastigheder, der er nødvendige for dine henvendelser. Men hvis du har en anden kilde til dine data, understøttes denne funktion slet ikke. Du skal bruge indsatser eller JDBC -scripts for at indlæse dataene i Redshift. Din anden mulighed ville være at bruge en ETL -løsning, der indlæser dine data på lageret fra en anden kilde.

3. Du skal forstå nøglerne til distribution og klassificering.

Distributions- og sorteringsnøglerne bestemmer, hvordan dine data indekseres og gemmes, når du vælger Redshift til dine datalagringsbehov. Denne proces gælder for alle noder. Det betyder, at du skal have en solid forståelse af begreberne bag disse nøgler, herunder viden om, hvordan du korrekt konfigurerer dem i dine tabeller for at skabe den optimerede ydelse, du ønsker gennem denne løsning.

Der kan kun være en enkelt fordelingsnøgle for hver tabel. Du kan ikke ændre det senere, hvilket betyder, at du skal forudse fremtidige arbejdsbyrder, før du træffer en beslutning. Primære nøgler kan også deklareres, men ikke håndhæves.

4. Det fungerer ikke som en live applikationsdatabase.

Du vil opdage, at Amazon Redshift gør et fremragende stykke arbejde med at køre forespørgsler med en betydelig mængde data, køre rapporter, håndtere analyser og lignende opgaver, men det er stadig ikke en løsning, hvis du prøver at køre live webapplikationer. Du bliver nødt til at indtaste data i et cachelag eller vælge en Postgres -forekomst, hvis du betjener data fra Redshift til enhver webapplikation.

Under en Redshift -træningsmulighed undersøgte Lars Kamp deltagerne om de problemer, de havde oplevet med denne løsning. 91% oplyste, at deres henvendelser var for langsomme. 64% sagde, at deres bestyrelser også var langsomme. 55% sagde, at det var svært at forstå, hvad der skete med databasen. Det tager tid at finde løsninger på disse problemer for at gøre Redshift til det kraftfulde værktøj, det kan være.

5. Du lægger dine data i et skybaseret system.

Der er unikke fordele og ulemper at overveje, når man kører skybaserede systemer. Selvom en tredjepart kan administrere dine data uden for webstedet kan øge de fysiske sikkerhedsproblemer, lægger du også dine data i en andens hænder.

Nogle virksomheder kan have bekymringer om privatlivets fred, når de bruger Redshift på grund af værdien af ​​dets intellektuelle ejendomsret. Du har også forbindelsesproblemer at tænke på, da den manglende adgang til en internetudbyder begrænser din mulighed for at få adgang til disse tjenester. Der er også mulighed for afbrydelser, hvilket betyder, at enhver fejl vil være offentlig.

6. Du er lidt bagud med dit Postgre -setup.

Amazon Redshift -rammen er baseret på PostgreSQL 8.0.2. Denne version er i øjeblikket over et årti gammel. Det har oplevet markante forbedringer på flere områder siden da, men disse funktioner er i øjeblikket ikke tilgængelige, hvis du vælger denne datalagringsløsning. Du vil opdage, at mange af de grundlæggende funktioner, som du ville forvente med opdateret SQL, ikke er tilgængelige via dette system.

7. Du skal styre omkostningerne ved dataintegration og migration.

Fordi du arbejder med en datalagringsløsning på perabyte-niveau, bør den båndbredde, du skal bruge for at overføre disse data, overvejes i de indledende faser af dette projekt. Dine interne systemer skal sende oplysningerne til det skybaserede Redshift-system eller sende dem via USB-drev til AWS fra din foretrukne afsender. Hvis du er en lille virksomhed, der stadig opererer med et begrænset dataforbrug, kan du muligvis ikke indsende alle dine data til opbevaring.

8. Der er ingen tilgængelige procedurer tilgængelige i Amazon Redshift.

Når du beslutter dig for at bruge Redshift til dine datalagringsbehov, skal du analysere og køre dine SQL -scriptfiler én sætning ad gangen. Det er fordi der ikke er nogen lagrede procedurer til rådighed for dig. Det kontrollerer og tæller de berørte rækker og kører derefter en kompleks joinforespørgsel mod nogle af visningerne eller tabellerne på dit system for at generere de nødvendige resultater. Medmindre du kender databasestyringssystemer, vil indlæringskurven for disse processer være ganske høj for den gennemsnitlige person.

9. Deres præstationsniveau falder, når grupperne stiger.

Hvis du vil opnå konsistente resultater, når du bruger Amazon Redshift, skal du holde dine klynger under 75% for de bedste resultater. Hvis du lader klyngerne blive overbelastet med flere forespørgsler, begynder du også at have problemer med ydeevnen. Gør dit bedste for at begrænse dig selv til 10 samtidige forespørgsler eller mindre, når du arbejder med denne datalagringsløsning. Du skal køre din vedligeholdelse eller tunge belastninger i rolige perioder, som kan falde uden for den tidsramme, du havde forestillet dig for denne proces.

Hvis du leder efter en overkommelig og effektiv datalagringsløsning, er det vigtigt at gennemgå fordele og ulemper ved Amazon Redshift. Der er nogle begrænsninger med denne service, men du vil også opdage, at det er lysår foran nogle konkurrenter, såsom Snowflake. Det tager noget tid at lære, især hvis du har brug for brugerdefinerede scripts for at få adgang til data i realtid, selvom de fleste bureauer, der bruger denne service, finder ud af, at dens nøjagtighed, konsistens og skalerbarhed er præcis, hvad de har brug for for at opnå større succes.