Oracle | ADATBÁNYÁSZAT ADATTÁRHÁZAKRÓL

Archive for the ‘Oracle’ Category

Microsoft – Parallel Data Warehouse

Posted: január 11, 2011 in Bull, Exadata, Greenplum Data Computing Appliance, HP, IBM, Massively Parallel Processing (MPP), On Line Transaction Processing (OLTP), Parallel Data Warehouse, Shared nothing, SQL Server

“.. egy SQL Serverre épülő megoldás adattárházakhoz. A vállalat a szoftvert közvetlenül nem dobja piacra, szervergyártók vásárolhatják meg és saját gépeikre telepítve komplett megoldásként kínálhatják az ügyfeleknek. A PDW mögé felsorakoztak a legnagyobb hardvercégek, beleértve a HP-t, a az IBM-et, és a Bullt.

A legújabb trendeknek megfelelően tehát a PDW is egy tömeghardverekre épülő, szervereket, tárolókat, hálózati eszközöket és szoftvereket előre integráló, a gyártó által összeállított és tesztelt rendszer, amelyet csak le kell szállítani és üzembe helyezni az ügyfélnél. Hasonló elgondolás mentén épül fel az Oracle Exadata és a piac egyik újonca, az EMC Data Computing Appliance is. Utóbbival közös vonása a PDW-nek, hogy a technológiai alapokhoz felvásárlás révén jutott a Microsoft, mégpedig a DatAllegro bekebelezésével.

Az Ultra Shared Nothing architektúrát még Linuxra és Ingres adatbázisra fejlesztette ki a DATAllegro, amelyet 2008-ban felvásárolt a Microsoft, ezt követően tértek át SQL Server használatára. A SQL Server 2008 R2 Parallel Data Warehouse MPP (massively parallel processing) architektúrára épül, a tervezők szerint ez a megközelítés sokkal inkább alkalmas adattárházak futtatására mint az SMP (symmetric multi-processing), amelyen az OLTP feladatok érzik jól magukat. Míg az online tranzakciókezelés jellemzően “scale-up” probléma, az adattárház inkább “scale-out”.

A Microsoft SQL Server 2008 R2 Parallel Data Warehouse kettő vagy több rackben foglal helyet, az egyik rackben van az irányító intelligencia, itt történik az adatok betöltése, a lekérdezések kezelése, a node-ok felügyelete, valamint az adatok mentése. A másik rackben vannak azok a szerverek és tárolók, amelyek az adatokat tartalmazzák és amelyek a lekérdezéseket ténylegesen végrehajtják. A lekérdezéseket végrehajtó szerverek és a tárolószerverek egyaránt SQL Server 2008 R2-t futtató kétutas, négymagos x86-os kiszolgálók. A compute node-okat Infiniband kapcsolja össze, a tárolók FC hálózatra csatlakoznak. Minden compute node-hoz egy tároló node tartozik. A Microsoft állítása szerint akár petabájtos méretig is skálázható a Parallel Data Warehouse, ehhez a felhasznált szerverek típusától függően elég sok rackre is szükség lehet.

A compute és storage node-okon kívül a rendszerben van még backup node, ez az adatok mentéséért és visszaállításáért felel, a “landing zone” tárolja a betöltésre szánt adatokat és a lekérdezések eredményeit, emellett van még legalább egy menedzsment-node, amely a rendszer tartományvezérlője, ezen keresztül történik a patchek telepítése, illetve ez tárolja az összes csomópont lemezképét (image), hogy például meghibásodást követő hardvercsere esetén valamelyik csomópontot újra kell telepíteni. A Parallel Data Warehouse lényege az irányító intelligencia, az MPP működést felügyelő szoftver, ez gondoskodik a lekérdezések optimalizálásáról, a végrehajtás ellenőrzéséről, a metaadatok és a sémák kezeléséről, valamint természetesen az adatok elosztásáról, particionálásról és replikálásról a csomópontok között annak érdekében, hogy az adattárház a lehető legnagyobb teljesítménnyel tudjon működni.

A SQL Server 2008 R2 Parallel Data Warehouse elérhetőségét hivatalosan tegnapelőtt jelentette be a Microsoft, de a hardvergyártók által kínált, előre integrált rendszerek valószínűleg csak hetek múlva lesznek elérhetők. Elsőként a HP szállítja majd HP Enterprise Data Warehouse Appliancerendszerét, amelynek ára két rackes konfiguráció esetén 900 ezer dollár, azonban ez még nem tartalmazza a szoftverlicenceket és a támogatást. Piaci elemzők szerint a PDW-alapú adattárházak végül a konkurensekhez hasonló áron érkeznek, miközben képességek terén érezhető lemaradásban vannak például analitika vagy az in-memory végrehajtás terén – a Microsoft fegyvere a a versenytársakkal szemben a SQL Server széles körű elterjedtsége lehet, illetve az, hogy a PDW-t több gyártó is forgalmazhatja, amelyek egymással versenyezve valószínűleg egy idő után lejjebb fogják szorítani az árat.”

Forrás: Bodnár Ádám (HWSW – főszerkesztő)

Oracle – Exadata

Posted: január 7, 2011 in Exadata, HP ProLiant, Sun

“Az adattárházak piacát korábban olyan cégek uralták, amelyek a külvilág számára teljesen zárt rendszereket építettek, saját fejlesztésű szoftverek és célhardverek integrációjával. Erre a piacra tört be két évvel ezelőtt az Exadatával az Oracle, a vállalat közönséges HP ProLiant szervereket állított csatasorba, amelyeket saját fejlesztésű szoftverrel hajtott meg Az Exadatának egy éve érkezett meg a második verziója, amely már Sun hardvereken alapult, és néhány okos fejlesztésnek (pl. Infiniband és SSD-k használata) jelentős előrelépést képviselt teljesítményben. Az Oracle szerint az Exadata V2 akár online tranzakciókezelésre is megfelelő sebességet biztosít.”

HP Proliant ML110 g6 (165.625 Ft)

Forrás: Bodnár Ádám (HWSW)

HOLAP architektúrák

Posted: január 6, 2011 in Adatkocka, Architektúrák, Hybrid On Line Analytica Processing (HOLAP), Oracle, SAP, SAS, SQL Server

“Egyre jellemzőbb trend, hogy a már meglévő relációs adatbázisok funkcionalitását kibővítik multidimenzionális tárolási lehetőségekkel. Ez lehetőséget ad olyan hibrid architektúrák felépítésére, melyeket alapvetően relációs módszerekkel építünk annak jól skálázható és robosztus tulajdonságai miatt, de kiegészítésként a gyakran használt nézetekre, adatokra építünk multidimenzionális kockákat is, a jóval gyorsabb lekérdezési sebesség miatt.
Az Oracle bár még néhány évig támogatja az Express termékcsaládját, hosszú távon ő is a relációs adatbáziskezelőjébe való beolvasztással tervez. Ugyancsak megjelent a Microsoft SQL Server-ében a multidimenzionális tárolást használó Analysis Services, és a DB2 relációs adatkezelőjébe a 8.1-es változattól ugyancsak beolvasztottak egy MOLAP szervert.
Az architektúra térnyerését jelzi például az eddig kizárólag relációs technikára és relációs adatbáziskezelőkre építkező SAP Business Information Warehouse adattárház terméke, ahol is a 3.0-ás változattól (2002), amennyiben az alatta lévő adatbáziskezelő MSSQL Server Analysis Services, már szintén képes a multidimenzionális tárolási technika alkalmazására.”

Forrás: Sidló Csaba István (http://scs.web.elte.hu/Work/DW/adattarhazak.htm)

ROLAP teljesítmény javítás aggregációval

Posted: január 6, 2011 in Attribútum, Oracle, Relational On Line Analytical Processing (ROLAP)

“Aggregáció alatt értjük azt, mikor az adatok valamely szempont szerinti felösszegzett változatát is eltároljuk az adatbázisunkban. Ez jelentheti egy vagy több dimenzió elhagyását. A következő ábra szemlélteti egy négydimenziós adatkocka agregációs lehetőségeit. Nyilván az aggregációs szintek bevezetésével, használatával a válaszidők jelentősen javulhatnak egyes lekérdezéseknél, igaz viszont az is, hogy az összegeket minden új adatelem beszúrásánál frissíteni kell.

Aggregációs rács

Ezek közül a lehetőségek közül érdemes kiválasztani a leginkább használt nézeteket.
Szokás az adatkocka n dimenziót tartalmazó változatát n-cuboid-nak nevezni. A kocka materializációja alatt pedig azt értjük, hogy a lehetséges cuboid-ok közül melyeket tárolunk el fizikailag is.
Az aggregáció egy általánosabban értelmezése szerint gyakran tárolják az adatok olyan nézeteit is, ahol valamely dimenziókat elhagynak, valamely más dimenziókat viszont leszűkítenek egy adott értékintervallumra vagy értékre. (Ezt a fajta aggregációs tárolást egyébként a MOLAP adatbázisok általában nem támogatják, ezt szokták emlegetni mint hátrány. Újabban viszont támogatják relációs adatbázisok szintjén, például az Oracle 9i adatbáziskezelő a Materialized View objektum bevezetésével.)”

Forrás: Sidló Csaba István (http://scs.web.elte.hu/Work/DW/adattarhazak.htm)

ADATBÁNYÁSZAT ADATTÁRHÁZAKRÓL

Adattárház definíciók

GNU szerzői jogok