Qlik-merki

Qlik Talend gagnasamþættingarlausnir

Qlik-Talend-Data-Integration-Solutions-mynd-26

Tæknilýsing

  • Vöruheiti: Qlik Talend gagnasamþættingarlausnir
  • Samþættingarvettvangur: Databricks Lakehouse pallur
  • Eiginleikar: Change Data Capture (CDC), Transformation Technology

Notkunarleiðbeiningar fyrir vöru

Qlik Talend gagnasamþættingarlausnir
Qlik Talend Data Integration lausnir flýta fyrir vélanámi (ML), gervigreind (AI) og DataOps frumkvæði með Change Data Capture (CDC) og umbreytingartækni sem tryggir stöðugan gagnastraum frá mörgum gagnaveitum til Databricks Lakehouse vettvangsins tilbúinn fyrir gervigreind og Greiningarneysla.

Qlik endurtaka
Í þessum arkitektúr framkvæmir Qlik Replicate eftirfarandi aðgerðir:

  1. Staðfestu markmiðið:
    • Búðu til marktöflur á DELTA sniði með viðeigandi gagnategundum þýddar frá upprunanum.
    • Framkvæmdu upphafs-/fullhleðslu frá upprunanum og sendu gögnin inn í geymslulagið.
    • Sendu Spark SQL til Databricks til að hlaða gögnunum úr geymslulaginu og umbreyta þeim í töflur með deltasniðinu.
  2. Handtaka og beita breytingum:
    • Handtaka breytingar með því að nota log-based CDC frá upprunanum.
    • Senda og NOTA breytingar (Setja inn / Uppfæra / Eyðir) á DELTA töflurnar (notaðu geymslulagið sem millistigtaging).

Qlik Cloud Data Integration
Qlik Cloud Data Integration er iPaaS tilboð sem veitir möguleika á að búa til gagnaverkefnaleiðslur til að framkvæma margvísleg gagnasamþættingarverkefni til að styðja við gagnaarkitektúr þinn og gervigreind og greiningarkröfur.

Aðgerðir Qlik Cloud Data Integration:

  • Lendingarverkefni:
    • Hefur umsjón með óaðfinnanlegum flutningi gagna frá ýmsum aðilum til tilnefnds lendingarsvæðis með því að nota Qlik Data Gateway – Data Movement til að fá aðgang að gagnaveitum í gegnum Change Data Capture (CDC).
    • Leyfir áætlaða reglubundna endurhleðslu með því að framkvæma fullt álag.
  • Umbreytingarverkefni:
    • Myndar endurnýtanlegar og reglubundnar gagnabreytingar innan gagnaleiðslunnar.
    • Framkvæmir umbreytingar á röð og smíðar gagnasöfn með sérsniðnum SQL.
    • Getur orðið að veruleika sem töflur eða komið fram sem kraftmikið views beita umbreytingum á flugu.

Algengar spurningar (algengar spurningar)

  • Er hægt að nota Qlik Replicate og Qlik Cloud Data Integration saman?
    Já, báðar lausnirnar eru til viðbótar og hægt er að nota þær saman eða sitt í hvoru lagi eftir notkunartilviki fyrirtækisins og gagnaarkitektúr.
  • Hver eru nokkrar af helstu aðgerðum Qlik Replicate?
    Qlik Replicate getur staðfest markmiðið með því að búa til töflur á DELTA sniði, framkvæma upphafshleðslu, fanga breytingar með CDC og beita breytingum á marktöflum.
  • Hver er tilgangurinn með Qlik Cloud Data Integration?
    Qlik Cloud Data Integration gerir kleift að búa til gagnaverkefnaleiðslur fyrir ýmis gagnasamþættingarverkefni til að styðja við gagnaarkitektúr og gervigreind og greiningarkröfur.

Inngangur

Qlik Talend Data Integration lausnir flýta fyrir vélanámi (ML), gervigreind (AI) og DataOps frumkvæði með Change Data Capture (CDC) og umbreytingartækni sem tryggir stöðugan gagnastraum frá mörgum gagnaveitum til Databricks Lakehouse vettvangsins tilbúinn fyrir gervigreind og Greiningarneysla.

Qlik Talend gagnasamþættingarlausnir

Qlik-Talend-Data-Integration-Solutions-mynd-1

  • Qlik Replicate og Qlik Talend Cloud Data Integration eru tvær lausnir frá Qlik sem gera fyrirtækjum kleift að stjórna gögnum sínum á mismunandi heimildum og kerfum. Qlik Replicate er gagnasamþættingarhugbúnaður sem gerir notendum kleift að endurtaka og uppfæra gögn í rauntíma frá staðbundnum og skýjauppsprettum í skýjagagnageymslur án handvirkrar kóðunar eða forskriftar. Qlik Cloud Data Integration er skýjabundin þjónusta sem veitir möguleika á að búa til gagnaleiðslur til að framkvæma ýmis gagnasamþættingarverkefni, svo sem að lenda, skrá, umbreyta og sameina gögn. Báðar lausnirnar styðja fjölbreytt úrval gagnagjafa og áfangastaða, svo sem tengslagagnagrunna, stóra gagnavettvanga, SAP, stórtölvur, skýjageymslu og SaaS forrit. Hins vegar er nokkur munur á þeim hvað varðar eiginleika, verðlagningu og dreifingarvalkosti.
  • Sumir af helstu mununum eru:
    • Qlik Replicate er sjálfstæð vara sem hægt er að setja upp á staðnum eða í skýinu, en Qlik Talend Cloud Data Integration er fullstýrð þjónusta sem keyrir á Qlik Cloud pallinum.
    • Qlik Replicate býður upp á fullkomnari eiginleika fyrir gagnaafritun, svo sem breytingagagnafanga (CDC), seinkaða sameiningu, stefsþróun og úrlausn átaka. Þó að Qlik Talend Cloud Data Integration einbeitir sér meira að umbreytingu og sameiningu gagna, svo sem gagnahreinsun, auðgun, blöndun og prófílgreiningu.
  • Í stuttu máli eru Qlik Replicate og Qlik Talend Cloud Data Integration viðbótarlausnir sem hægt er að nota saman eða sitt í hvoru lagi eftir notkunartilvikum og gagnaarkitektúr fyrirtækisins. Báðar lausnirnar miða að því að veita hraðvirka, áreiðanlega og stigstærða gagnasamþættingargetu fyrir nútíma gervigreind og greiningarþarfir.

Qlik endurtaka

  • Qlik Replicate® gerir CDC gagnaflutning stöðugt sjálfvirkan frá mörgum gagnaveitum (td Oracle, Microsoft SQL Server, SAP, Mainframe og fleira) til Databricks Lakehouse vettvangsins. Það hjálpar viðskiptavinum að forðast þungar lyftingar sem fylgja því að draga út gögn handvirkt, flytja þau í gegnum API/skriftu og síðan sneiða, staging, og flytja það inn.
  • Í þessum arkitektúr framkvæmir Qlik Replicate eftirfarandi aðgerðir:
    1. Staðfestu markmiðið
      • Búðu til marktöflur á DELTA sniði með viðeigandi gagnategundum þýddar frá upprunanum
      • Framkvæmdu upphafs-/fullhleðslu frá upprunanum og sendu gögnin inn í geymslulagið
      • Sendu Spark SQL til Databricks til að hlaða gögnunum úr geymslulaginu og umbreyta þeim í töflur með deltasniðinu
    2. Handtaka og beita breytingum
      • Handtaka breytingar með því að nota log-based CDC frá upprunanum
      • Senda og NOTA breytingar (Setja inn / Uppfæra / Eyðir) á DELTA töflurnar (notaðu geymslulagið sem millistigtaging)Qlik-Talend-Data-Integration-Solutions-mynd-2

Qlik Cloud Data Integration

  • Qlik Cloud Data Integration er iPaaS (Integration Platform as a Service) tilboð sem veitir möguleika á að búa til gagnaverkefnaleiðslur til að framkvæma margvísleg gagnasamþættingarverkefni til að styðja við gagnaarkitektúr þinn og gervigreind og greiningarkröfur.
    • Gagnaleiðslur - Þú getur nýtt þér rauntíma, annál-tengda breytingagagnatöku með öruggri tengingu við gagnaveitur á staðnum á bak við eldveggi eða notað fullhleðslumöguleika fyrir SaaS gagnaveitur. Þegar þú hefur sett inn gögn geturðu beitt umbreytingum fyrir framleiðsla sem hentar þér eða gera sjálfvirk mynstur eins og staðreyndir og stærðir gagnamarkaðs. Ytri views og lifa views eru búin til fyrir gagnanotkun. Qlik Cloud Data Integration býr einnig til fulla tegund 2 sögulega gagnageymslu (HDS).
    • Gagnaafritunarverkefni - Afritaðu gögn frá hvaða samhæfðu uppruna sem er á hvaða studd áfangastað sem er. Hægt er að umbreyta gögnum og vera stöðugt uppfærð með því að nota Change Data Capture (CDC) tækni. Það er líka möguleiki á að afhenda gögnin í gagnavatn sem skilar gögnum í Amazon S3, Azure Data Lake Storage eða Google Cloud Storage
  • Hægt er að nota fágaða gagnaúttakið frá Qlik Cloud Data Integration í mörgum tilgangi:
    • Rauntíma hreyfing frá öllum aðilum fyrirtækja, þar með talið venslagagnagrunna, SAP, Mainframe og SaaS forrit.
    • Gagnaumbreyting með ELT (Extract/Load/Transform) með no-code nálgun án þess að þörf sé á viðbótarlausnum þriðja aðila.
    • Sjálfvirk gerð gagnamerkja fyrir greiningar í Databricks Lakehouse.
    • Nútímavæðing á gagnageymslunni þinni til að styðja við gervigreind, vélanám og önnur frumkvæði.
  • Í þessum arkitektúr framkvæmir Qlik Cloud Data Integration eftirfarandi aðgerðir:
    • Staðfestu markmiðið.
      • Búðu til marktöflur á DELTA sniði með viðeigandi gagnategundum þýddar úr upprunatöflunum
      • Framkvæmdu upphafs-/fullhleðslu frá upprunanum sem sendir gögnin í geymslulagið
        • SaaS forrit – beint
        • Venslagagnagrunnar - með Data Gateway
      • Sendu Spark SQL til Databricks til að hlaða gögnunum úr geymslulaginu og umbreyta þeim í töflur með deltasniðinu
    • Handtaka og beita breytingum.
      • Handtaka breytingar með því að nota log-based CDC frá upprunanum
        • SaaS forrit – beint
        • Venslagagnagrunnar – með Qlik Data Gateway
      • Senda og NOTA breytingar (Setja inn / Uppfæra / Eyðir) á DELTA töflurnar (notaðu geymslulagið sem millistigtaging)
    • Framkvæma umbreytingarnar sem senda Sparksql til DatabricksQlik-Talend-Data-Integration-Solutions-mynd-3

Önnur leið til að sjá þennan arkitektúr er í gegnum hugmyndina um verkefni með sérhæfðum aðgerðum

Qlik-Talend-Data-Integration-Solutions-mynd-4

  1. Lendingarverkefni - hefur umsjón með óaðfinnanlegum flutningi gagna frá ýmsum aðilum til tilnefnds lendingarsvæðis. Skýringarmyndin sýnir notkun Qlik Data Gateway – Data Movement til að fá aðgang að gagnaveitum í gegnum Change Data Capture (CDC) til að tryggja að gögnin haldist uppfærð. Að auki er hægt að nota Qlik Cloud Data Integration upprunatengingar til að framkvæma fullt álag, sem gerir ráð fyrir reglubundnu endurhleðslu.
  2. Geymsluverkefni - hefur umsjón með beitingu gagna á geymslutöflur, þar með talið gerð og umsýslu bæði taflna og ytri views. Þetta mikilvæga verkefni gegnir lykilhlutverki við að viðhalda gagnaheilleika og aðgengi innan Qlik Cloud Data Integration umhverfisins. Geymsluverkefnið stjórnar ekki aðeins tímasetningu gagnaforrita heldur tryggir það einnig óaðfinnanlega samþættingu upplýsinga inn í geymsluinnviðina, sem eykur heildar skilvirkni og virkni Qlik Cloud Data Integration pallsins.
  3. Umbreytingarverkefni - Innan gagnaleiðslunnar þinnar geturðu búið til gagnabreytingar sem eru bæði endurnýtanlegar og reglubundnar. Þessar umbreytingar er hægt að fella óaðfinnanlega inn í gagnaflutningsferlið þitt eða setja upp sem endurnotanleg umbreytingargagnaverkefni. Sveigjanleikinn nær til að framkvæma umbreytingar á línustigi og búa til gagnasöfn með sérsniðnum SQL, sem getur annað hvort orðið að veruleika sem töflur eða komið fram sem kraftmikið views beita umbreytingum á flugu.
  4. Data Mart verkefni - Eftir að hafa tekist inn í gögnin er hægt að búa til gagnamars með því að nota upplýsingarnar sem eru fengnar frá annað hvort geymslu- eða umbreytingarverkefnum. Með því að sníða að viðskiptakröfum er hægt að búa til margar gagnamars. Helst ættu þessar gagnamars að þjóna sem geymslur fyrir samansöfnuð gögn, safnað í greiningartilgangi innan ákveðinnar deildar eða eininga stofnunar, eins og söludeild eða jafnvel afhjúpuð sem eiginleikar sem ML ferlum á að nota.

Leiðbeiningar um framkvæmd

  • Eins og áður hefur komið fram í þessu skjali eru Qlik Replicate og Qlik Cloud Data Integration tvær lausnir sem hægt er að nota annað hvort saman eða í sitthvoru lagi. Ákvörðunin um að nota þau saman eða hver fyrir sig fer eftir gagnaarkitektúr og þörfum fyrirtækisins. Það er mikilvægt að huga að kröfum viðskiptavina og nota tilvik til að ákvarða skilvirkasta og skilvirkasta arkitektúrinn.
    • Ein til margar staðfræði krefjast notkunar á Qlik Replicate eins og er
    • SaaS heimildir eru aðeins studdar af Qlik Cloud Data Integration
  • Það geta verið tilvik þar sem hægt er að nota bæði Replicate og Qlik Cloud Data Integration saman. Til dæmis er hægt að nota Replicate til að fæða gögn inn í Databricks frá uppruna sem er ekki studd af Qlik Cloud Data Integration. Síðan er hægt að nota skráð gögn sem inntak fyrir gagnaleiðslur sem búnar eru til með Qlik Cloud Data Integration.

Databricks Data Intelligence Platform

  • Grunnurinn að Databricks Data Intelligence Platform liggur í vatnahúsaarkitektúrnum, byltingarkenndri blöndu af gagnavötnum og gagnavöruhúsum. Þessi nýstárlega nálgun miðar að því að lágmarka kostnað og flýta fyrir því að gagna- og gervigreindarmarkmiðum verði náð.
  • Með því að tileinka sér opinn uppspretta meginreglur og fylgja opnum stöðlum, hagræðir vatnahúsaarkitektúrinn gagnainnviði með því að fjarlægja sögulegar hindranir sem flækja oft svið gagna og gervigreindar. Með því að gera það býður það upp á samhæfðara og skilvirkara umhverfi til að stjórna og nýta gagnaauðlindir þínar.Qlik-Talend-Data-Integration-Solutions-mynd-5

Sameinað

Sameinuð arkitektúr sem felur í sér samþættingu, geymslu, vinnslu, stjórnun, miðlun, greiningu og gervigreind. Einstök aðferðafræði til að meðhöndla bæði skipulögð og óskipulögð gögn. Alhliða sjónarhorn á ætterni gagna og uppruna frá upphafi til enda. Samhæfð verkfærasett sem rúmar Python og SQL, fartölvur og IDE, lotu- og streymisferli, hjá öllum helstu skýjafyrirtækjum.

Qlik-Talend-Data-Integration-Solutions-mynd-6

Opið

  • Innan Databricks rammans er stjórn á gögnum stöðugt viðhaldið, sem tryggir sjálfstæði frá sérsniðnum sniðum og lokuðum vistkerfum.
  • Grunnurinn að vatnahúsaarkitektúrnum byggir á víðtækum opnum verkefnum eins og Apache Spark™, ​​Delta Lake og MLflow. Það nýtur alþjóðlegs stuðnings í gegnum Databricks Partner Network. Að auki kynnir Delta Sharing eiginleikinn opna lausn til að deila rauntímagögnum frá vatnahúsinu á öruggan hátt á hvaða tölvuvettvang sem er. Þetta er náð án þess að þörf sé á gagnaafritun eða flóknum útdrætti, umbreytingu, hleðslu (ETL) ferlum.Qlik-Talend-Data-Integration-Solutions-mynd-7

Skalanlegt

  • Sjálfvirk hagræðing fyrir frammistöðu og geymslu er vandlega hönnuð til að tryggja lægsta heildarkostnað á eignarhaldi (TCO) meðal gagnakerfa, samhliða því að ná heimsmetsafköstum fyrir gagnageymslu og gervigreind (AI). Þetta nær til beitingar á generative tækni eins og Large Language Models (LLM).
  • Óháð skipulagsstærð er Databricks hannað til að takast á við rekstrarkröfur fyrirtækja, allt frá sprotafyrirtækjum til alþjóðlegra fyrirtækja.

SQL vöruhús x General Compute Clusters

Qlik lausnir styðja bæði Databricks SQL vöruhús og Compute Clusters. Þetta eru tvær mismunandi leiðir til að vinna úr gögnum í skýinu. Í báðum tilfellum munu Qlik lausnir senda SparkSQL skipanir til að vinna úr gögnunum, ekki treysta á aðra studda eiginleika (eins og fartölvur í Scala til dæmisample). Valið á milli Databricks SQL vöruhúsa og almennra tölvuklasa fer eftir sérstökum kröfum og markmiðum hvers verkefnis. Sumir þættir sem þarf að hafa í huga eru:

Gagnamagn

  • CDC tíðni: SQL vöruhús eru fljótari að snúast upp þegar þau eru virkjuð í fyrsta skipti og klasar geta verið hægari til að svara fyrstu skipuninni.
  • Sveigjanleiki og mýkt: SQL vöruhús geta sjálfkrafa skalað upp eða niður til að mæta eftirspurn samhliða notenda og fyrirspurna. Almennir tölvuklasar geta einnig skalast en krefjast meiri handvirkrar inngrips og stillingar.
  • Öryggi og stjórnunarhættir: SQL vöruhús bjóða upp á innbyggða öryggiseiginleika eins og dulkóðun, auðkenningu, heimild, endurskoðun og samræmi. Almennir tölvuklasar geta einnig innleitt öryggisráðstafanir en krefjast meiri uppsetningar og stjórnun.
  • Í stuttu máli eru Databricks SQL vöruhús og almennir tölvuklasar bæði öflugar og áreiðanlegar lausnir fyrir gagnavinnslu í skýinu. Hins vegar hafa þeir mismunandi styrkleika og veikleika sem ætti að meta vandlega áður en þeir velja einn fram yfir annan.

Ráðleggingar um almenna tölvuklasa fyrir Qlik lausnir

ATH
Ráðleggingarnar hér að neðan eru til viðmiðunar og eru byggðar á verkefnum og POC sem framkvæmdar eru af Qlik og samstarfsaðilum þess varðandi sérstakar kröfur. Nokkrir þættir eins og staðfræði netkerfisins, leynd, töflubygging, uppfærslutíðni, útgáfur ökumanns o.s.frv. geta haft áhrif á nauðsynlegar stillingar fyrir tiltekið notkunartilvik. Viðskiptavinum er bent á að framkvæma nauðsynlega mælikvarða og vandvirkni til að ákvarða stillingar þeirra.

  1. Databricks Runtime
    Athugaðu alltaf Qlik Replicate og Qlik Cloud Data Integration (http://help.qlik.com) til að sjá hvaða Databricks Runtime er studdur þegar þú ert að stilla klasann þinn.
  2. Databricks Runtime útgáfa sem styður ljósmyndun
    Þegar þú ert að stilla klasann þinn skaltu velja „Photon“ fyrir Databricks runtime útgáfuna sem mun styðja almenna þyrpinguna þína. Photon er innfæddur vektorvæddur fyrirspurnarvél á Databricks, skrifuð til að vera beint samhæf við Apache Spark. Photon er hluti af afkastamikilli keyrslutíma sem keyrir núverandi SQL og DataFrame API símtöl hraðar og dregur úr heildarkostnaði fyrir hvert vinnuálag. Fyrir frekari umfjöllun um Photon, vinsamlegast skoðaðu þetta skjal https://docs.databricks.com/runtime/photon.htmlQlik-Talend-Data-Integration-Solutions-mynd-8
  3. Veldu „Minni fínstillt – Delta skyndiminni hraðað“
    Þegar þú ert að stilla þyrpinguna þína skaltu ganga úr skugga um að þú velur „Minni fínstillt - Delta skyndiminni hraðað“ tegund vinnumanns.Qlik-Talend-Data-Integration-Solutions-mynd-9
    (*) listinn hér að ofan er byggður á Azure Databricks, þetta gæti breyst ef þú notar AWS eða GCP

    Qlik-Talend-Data-Integration-Solutions-mynd-10

  4. Stilla sjálfvirka fínstillingarvalkosti
    Bættu stillingum við klasann þinn til að virkja optimizeWrite og slökkva á autoCompact. Nauðsynlegt er að slökkva á autoCompact til að koma í veg fyrir að raðþjöppun verði af stað með rauntíma CDC uppfærslum (sem getur leitt til aukinnar leynd). Til að gera það skaltu bæta línunum hér að neðan við Spark hlutann þinn í Ítarlegri valmöguleikum þyrpingarinnar.
    Neisti. gagnakubbar.delta.eiginleikar.sjálfgefið. auto-optimize.optimizeSkrifaðu satt
    spark.databricks.delta.properties.defaults.autoOptimize.autoCompact false
    Vinsamlegast athugaðu https://docs.databricks.com/clusters/configure.html fyrir frekari upplýsingar um að stilla klasann þinn.Qlik-Talend-Data-Integration-Solutions-mynd-11
  5. Fínstilltu töflur reglulega
    Það er mikilvægt að skipuleggja fartölvu til að FÆRJA töflur í Delta Lake þínu. Þetta mun bæta fyrirspurnarhraða fyrir gögnin sem lenda. Vinsamlegast skoðaðu þessi skjöl: https://docs.microsoft.com/en-us/azure/databricks/delta/optimizations/file-mgmt fyrir samples af fartölvum til að fínstilla töflurnar.
  6. Sjálfvirk stærð
    Vegna breytilegs vinnuálags sem CDC kynnir, er mælt með því að endurskoðaview stillingar þínar byggðar á vinnuálagi og prófun með verkefnum þínum, eftirlit og síðan auka eða minnka miðað við notkun. Vinsamlegast skoðaðu Databricks skjöl (https://docs.databricks.com/clusters/clusters-manage.html#monitor-performance) fyrir hvernig á að fylgjast með frammistöðu klasa.

Ráðleggingar um SQL vöruhús fyrir Qlik lausnir

ATH

Ráðleggingarnar hér að neðan eru til viðmiðunar og eru byggðar á verkefnum og POC sem framkvæmdar eru af Qlik og samstarfsaðilum þess varðandi sérstakar kröfur. Nokkrir þættir eins og staðfræði netkerfisins, leynd, töflubygging, uppfærslutíðni, útgáfur ökumanns o.s.frv. geta haft áhrif á nauðsynlegar stillingar fyrir tiltekið notkunartilvik. Viðskiptavinum er bent á að framkvæma nauðsynlega mælikvarða og vandvirkni til að ákvarða stillingar þeirra.
SQL vöruhús hafa mun færri valkosti til að stilla á vöruhúsastigi (samanborið við klasa). Tiltækar stillingar.

Qlik-Talend-Data-Integration-Solutions-mynd-12

  1. Tegund vöruhúss
    • Þegar þetta skjal var skrifað eru þrjár tegundir vöruhúsa. Vinsamlegast skoðaðu þetta skjal Hvað eru SQL vöruhús? til almennrar umræðu um þauQlik-Talend-Data-Integration-Solutions-mynd-13
    • Frá sjónarhóli frammistöðu og samhliða eru almennar ráðleggingar að nota netþjónalaust vöruhús til að auka almenna afköst verkefnisins þíns. Sum umhverfi og reikningar hafa ekki þennan möguleika, í þessum aðstæðum er mælt með Pro vöruhúsi.
  2. Skala
    Stilltu þessa færibreytu til að aukast miðað við verkfæribreytu „Hámarksfjöldi taflna til að hlaðast samhliða“ (endurtaka) eða „Hámarksfjöldi gagnagrunnstenginga“ (Qlik Cloud Data Integration). Almenna þumalputtareglan er að hafa einn vöruhúsaklasa til að vinna 2 til 3 töflur eða tengingar samhliða.
  3. Klasastærð
    • Þessi færibreyta er mjög háð gögnunum sem unnið er með. Nokkrar breytur geta haft áhrif á almenna frammistöðu eins og nokkrar töflur, fjölda og dálkategundir hverrar töflu, uppfærslutíðni osfrv.
    • Almenn ráðlegging er að byrja á stærð sem hefur góðan væntanlegur kostnaður x árangur (eins og miðill til dæmisample) og framkvæma nokkrar prófanir og stilla þessa færibreytu (upp eða niður) í samanburði við grunnlínuna.

Árangurssamanburður á milli SQL vöruhúsa x General Compute Clusters

ATH
Þessi prófun var gerð í rannsóknarstofuumhverfi og táknar ekki raunverulegt lifandi umhverfi. Niðurstöður geta verið mismunandi eftir tegund heimilda, staðfræði, magni, skráastærð, stillingu upprunagagnagrunns og öðrum breytum.

Umhverfi:

  • Heimild
    • PostgreSQL í gangi á VM
    • 1 Tafla með 7 dálkum og 36 milljón færslum
    • Aðallykill (1 dálkur)
    • CDC handritaprófun með atvinnumanninumfile fyrir neðanQlik-Talend-Data-Integration-Solutions-mynd-14
  • Markmið (Databricks on Azure) – Staging á ADLS gen2Qlik-Talend-Data-Integration-Solutions-mynd-15
  • Qlik endurtaka nóvember 2023 (2023.11.0.149) á Windows
  • Ferli
    • Tvö verkefni (sama uppspretta og mismunandi endapunktar)
    • Byrjaði á fullri hleðslu á verkefni 1 og beið eftir að klárast.
    • Byrjaði á fullri hleðslu á verkefni 2 og beið eftir að klárast.
    • Byrjaði SQL handritið sem líkir eftir breytingunum. Bæði verkefnin keyra samhliða og skila mismunandi kemu á Databricks
      Niðurstöður:
      Með því að nota Qlik Enterprise Manager til að safna allri tölfræði, sáum við að það er enginn marktækur munur á frammistöðu á milli þess að nota SQL vöruhús og klasa. Frá kostnaðarsjónarmiði eru SQL vöruhús venjulega hagkvæmari, sem getur gefið til kynna notkun þeirra yfir klasa.Qlik-Talend-Data-Integration-Solutions-mynd-16

Ráðleggingar um Qlik Cloud Data Integration

  1. Töfluval í verkefni
    Databricks mælir með því að einangra stórar eða breiðar (margar dálkar) töflur sem vinna mikla vinnslu fyrir verkefni sín. Með því að nota þessa nálgun er auðveldara að fylgjast með frammistöðu eða úthluta vöruhúsi til tiltekins verks.
  2. Umbreytingar í verkefni
    Ef markmið þitt er að hámarka afköst mjög viðskiptagagna sem tekin eru inn í vatnahúsið, er mælt með því að lágmarka umbreytingar á verkefnastigi. Þessi nálgun gerir þér kleift að lenda gögnunum eins og þau eru í vatnahúsinu og nýta síðan alla tiltæka gagnaverkfræðigetu til að framkvæma umbreytingarnar. Þetta ferli er tæknilega nefnt að breyta ETL (Extract-Transform-Load) í ELT (Extract-Load-Transform).
  3. Söguleg gagnageymsla (tegund 2) við geymslu / umbreytingu
    Qlik Cloud Data Integration mun sjálfgefið búa til Historical Data Store (Type 2) eignir sem geyma og stjórna núverandi og söguleg gögnum með tímanum, byggt á Type 2 SCD (Slowly Changing Dimension) hugmyndinni. Allar útgáfur af skrá eru geymdar, þar með talið eyðingar, með dagsetningum sem gefa til kynna tímabilið sem hver skrá var virk. Ef þessar upplýsingar skipta ekki máli geturðu slökkt á þessum eiginleika í Geymsla eða Umbreyting hlutanum í verkefnisstillingunum. Þetta mun spara auðlindir (pláss og tölvumál) frá vinnusvæðinu þínu.Qlik-Talend-Data-Integration-Solutions-mynd-17
  4. Veruleika um umbreytingarverkefni
    Gögn sem myndast úr umbreytingarverkefni geta verið afhjúpuð á tvo vegu:
    • Views – þar sem allar fyrirspurnir gegn þessari einingu verða keyrðar á móti upprunalegu töflunum frá geymslusvæðinu
    • Töflur – þar sem töflurnar verða fylltar út á áætlaðan hátt byggt á gögnum frá geymslusvæðinu.
      Valið á milli þeirra mun byggjast á því hversu oft verður aðgangur að umbreyttu gögnunum. Sjaldnar umbreytt gögn verða líklega afhjúpuð sem views, oftar umbreytt gögn ættu að vera viðvarandi sem töflur. Ef þörf er á að nota bæði er möguleiki á að hafa tvö (eða fleiri) umbreytingarverkefni, annað byggt á views og hin(ar) byggðar á töflum.
  5. Að nota Live Views
    • Lifandi views fella inn gögn úr breytingatöflum sem ekki hefur enn verið beitt á núverandi eða fyrri töflur. Þessi eiginleiki gerir notendum kleift að fá aðgang að gögnum með minni leynd án þess að þurfa að beita breytingum oft.
    • Að seinka samrunaaðgerðinni leiðir einnig til kostnaðarsparnaðar og minni vinnslukrafna á markvettvangi.
    • Að auki, lifandi views bjóða upp á advantage að krefjast þess að tölvuþrepið sé ekki alltaf starfhæft. Hægt er að auka seinkun þar sem ekki er lengur þörf á að beita breytingum yfir daginn. Nýlega settar plötur verða strax aðgengilegar í beinni views þegar þau eru aðgengileg í breytingatöflunni og geymsluverkefnið gæti keyrt sjaldnar og sparað klasa/vöruhúsaauðlindir.
  6. Tímamörk á tengingarstigi
    Til að tryggja sem best virkni Qlik Cloud Data Integration er mikilvægt að stilla innri eiginleika sem heitir executeTimeout með gildi sem er hærra en 300. Þessi uppsetning tryggir að Qlik Cloud Data Integration kerfið haldi biðtíma sem er að minnsta kosti 5 mínútur áður en það skráir sig bilun. Þar af leiðandi gefur þetta nægan tíma fyrir vöruhúsið til að frumstilla ef það var áður í stöðvuðu ástandi. Þetta er sérstaklega mikilvægt í aðstæðum þar sem vöruhúsið krefst lengri ræsingartíma.Qlik-Talend-Data-Integration-Solutions-mynd-18

Ráðleggingar fyrir Qlik Replicate

  1. Töfluval í verkefni
    Databricks mælir með því að einangra stórar eða breiðar (margar dálkar) töflur sem vinna mikla vinnslu fyrir verkefni sín. Með því að nota þessa nálgun er auðveldara að fylgjast með frammistöðu eða úthluta klasa í ákveðið verkefni.
  2. Umbreytingar í verkefni
    Ef markmið þitt er að hámarka afköst mjög viðskiptagagna sem eru tekin inn í Lakehouse, er mælt með því að lágmarka umbreytingar á verkefnastigi. Þessi nálgun gerir þér kleift að landa gögnunum eins og þau eru í Lakehouse og nýta síðan alla tiltæka gagnaverkfræðigetu til að framkvæma umbreytingarnar. Þetta ferli er tæknilega nefnt að breyta ETL (Extract-Transform-Load) í ELT (Extract-Load-Transform).
  3. File Stærðarstillingar
    • Það er Qlik Replicate færibreyta á tengingarstigi sem gæti aukið gagnaflutninginn. Það er kallað Hámark file stærð (MB) og það er staðsett undir Ítarlegri stillingum tengingarinnarQlik-Talend-Data-Integration-Solutions-mynd-19
    • Sjálfgefið gildi er 100Mb og þessi færibreyta gefur til kynna file stærð sem er hlaðið upp á stagsvæði áður en því er hlaðið inn á borð. Þú getur séð fyrir neðan áhrif þess að breyta þessari færibreytu fyrir töflu með 100M færslum (u.þ.b. 3.8 GB gögn á upprunanum). Það er engin „gull regla“ fyrir þessa breytu, en venjulega stærri file stærð eykur afköst gagnaflutningsins sem er mjög mikilvægt við upphaflega fullhleðslu.
    • Uppsetning klasa:Qlik-Talend-Data-Integration-Solutions-mynd-25
    • Heimildatafla (Azure RDS Mysql) 

      Qlik-Talend-Data-Integration-Solutions-mynd-26
      Eins og sést hér að ofan var mjög góð framför þegar aukningin var aukin file stærð frá sjálfgefnu gildi (100MB) í 500MB, þó að viðbótarhækkanir umfram 500MB í þessu prófi hafi mun minni áhrif á frammistöðu.

  4. Hópstillingarstillingar
    Qlik Endurtaka örlotubreytingar fyrir bjartsýni afhendingu til Databricks Delta og lotustillingarstillingar fyrir verkefni hefur áhrif á stærð örlotunnar sem send er til Databricks.
    • Breyta vinnsluham: Aðeins Batch Optimized Apply er stutt fyrir Databricks markmið.
    • Notaðu hópbreytingar á margar töflur samtímis: Þessi valkostur stillir fjölda þráða sem munu virka samhliða til að hlaða upp og beita gögnum á Databricks. Sjálfgefið gildi er 5, að hámarki 50. Með því að auka þetta gildi getur það bætt afköst þitt þegar það eru margar töflur með CDC í tiltekinni lotu, en það gæti þurft fleiri klasaauðlindir. Vinsamlegast afturview takmarkanir á þessari stillingu í hjálparleiðbeiningunum fyrir endurtekningar.
    • Notaðu hópbreytingar í bilastillingum: Stilltu tíma og stærð örlotunnar.
    • Lengri en (sekúndur): Þetta tilgreinir lágmarkstíma sem þarf að bíða á milli hverrar notkunar á lotubreytingum. Sjálfgefið gildi er 1 og er venjulega of lágt gildi fyrir Databricks delta umsóknarferli. Með því að auka þetta gildi minnkar tíðnin sem breytingar eru beittar á markið á meðan stækkað er á lotunum, í raun og veru að búa til stærri lotur á kostnað einhverrar viðbótar leynd. Mælt er með því að byrja á gildinu 60 og auka enn frekar ef einhver viðbótarleynd er ásættanleg. Í sumum tilfellum getur bið eftir stærri lotum bætt afköst og leynd
    • En minna en (sekúndur): Þetta gildi tilgreinir hámarkstímann sem þarf að bíða á milli hverrar notkunar á lotubreytingum (áður en tímamörk eru lýst yfir). Með öðrum orðum, hámarks viðunandi leynd. Sjálfgefið gildi er 30. Þetta gildi ákvarðar hámarkstímann sem þarf að bíða áður en breytingarnar eru notaðar eftir að gildinu Lengra en (sekúndur) hefur verið náð. Mælt er með því að stilla þetta gildi á 120 (ásamt Lengra en gildinu 60 og stilla gildið enn hærra ef meiri leynd er ásættanleg.
    • Þvingaðu notkun á runu þegar vinnsluminni fer yfir (MB): þessi stilling tilgreinir hámarks magn af minni til að nota fyrir forvinnslu í batch-optimized beitingarham. Sjálfgefið gildi er 500. Fyrir hámarks lotustærð skaltu stilla þetta gildi á hæsta magn af minni sem þú getur úthlutað til Qlik Replicate. Mælt er með því að byrja á gildinu 2000 og íhuga að stilla hærra ef nóg er til á Qlik Replicate þjóninum.
    • Notaðu breytingar með sameiningu: þetta gerir verkefninu kleift að nota SQL MERGE skipanir til að flýta fyrir inntöku inn í Lakehouse.Qlik-Talend-Data-Integration-Solutions-mynd-21
  5. Skipting Stór töflur
    • Databricks veitir möguleika á að skipta Delta töflum. Mælt er með því að skipta stórum töflum sem gætu verið flöskuháls í umsóknarferlinu. Qlik Replicate styður sem stendur ekki stillingar á markskiptingu innan verkefnisins. Mark Delta töfluna ætti að vera búin til af Qlik Replicate og síðan endurgerð með viðeigandi skiptingardálkum. Ef tafla er skilgreind sem skipting er mælt með því að stilla verkefnið til að framkvæma TRUNCATE fyrir fullt álag.
    • Þó að skipting sé einfalt hugtak, krefst þess að ákvarða besta skiptingardálkinn/dálkana traustan skilning á því hvernig gögnum er breytt af forritinu. Ekki er mælt með því að skipta aðallyklinum í skiptingu vegna áhyggjuefna um aðalatriði. Stór töflur sem krefjast skiptingar eru venjulega
      „viðskipta“ í eðli sínu – td sölugögn. Að velja dagsetningardálk eða bæta YEAR_MONTH dálki við markgagnasettið innan Replicate veitir venjulega góða aðferð til skiptingar. Hér að neðan er fyrrverandiampáhrif skiptingarinnar á klasanýtingu og þar með leynd. Í þessu frvample, tafla með u.þ.b. 68 milljón upprunalínum / 655 GB af gögnum var að vinna úr framleiðslu CDC vinnuálagi. Skipting deltatöflunnar með því að nota DATE dálk náði 73% minnkun á leynd og mikilli minnkun á minni og örgjörvanotkun í þyrpingunni.

Klasanotkun - Ekki skipt

Qlik-Talend-Data-Integration-Solutions-mynd-22

Viðauki I – Að búa til tengingar

Það er mjög mælt með því að þú skoðir skjölin sem eru fáanleg á help.qlik.com fyrir nýjustu kröfur og studdar stillingar fyrir Databricks umhverfið þitt
Til að búa til gagnatengingu í Qlik Replicate í Databricks tilvik þarftu:

  1. Hýsingarheiti miðlara
  2. Höfn
  3. HTTP slóð
  4. Tákn

Klasar
Hægt er að draga upplýsingar 1, 2 og 3 út úr Databricks stjórnborðinu með því að fara í klasastillingu eða SQL endapunktstillingu þína, og undir Advanced Options hlutanum finnurðu JDBC/ODBC flipann

Databricks SQL vöruhús
Upplýsingar 1, 2 og 3 er hægt að draga úr Databricks stjórnborðinu með því að fara í SQL Warehouse hlutann undir flipanum „Tengingarupplýsingar“

Qlik-Talend-Data-Integration-Solutions-mynd-23

Til að fá aðgangslykil þarftu að fara á notandann
Stillingarhlutann á Databricks vélinni þinni og notaðu hnappinn Búa til nýtt tákn.

Qlik-Talend-Data-Integration-Solutions-mynd-24

Það er mikilvægt að geyma táknið sem myndast á öruggum stað vegna þess að þú getur ekki sótt það aftur eftir að þú lokar þessari umræðu

Skjöl / auðlindir

Qlik Talend gagnasamþættingarlausnir [pdfNotendahandbók
Talend Gagnasamþættingarlausnir, Gagnasamþættingarlausnir, Samþættingarlausnir, Lausnir

Heimildir

Skildu eftir athugasemd

Netfangið þitt verður ekki birt. Nauðsynlegir reitir eru merktir *