Opsætning

De vigtigste afhængigheder er:

Pakken i dette repository
Pathling
Spark

Pakken i dette repository gør forbindelse til Spark-clusteren (der, hvor beregningerne udføres) og S3-bucket'en (der, hvor data ligger) så nem som mulig for brugeren.

Pathling tillader at skrive FHIRPath queries på data, så vi kan lave traditionelle SQL-agtige views, som derefter kan joines sammen med normal Spark-syntaks til det endelige resultat.

Alle eksemplerne følger denne fremgangsmåde.

Deling a Jupyter Notebooks

Bemærk at Jupyter Notebooks cacher deres resultater i filen. Når du kører på testdata kan du se bort fra dette, men hvis resultaterne indeholder personfølsom information vil disse være indeholdt i notebook'en. Du bør derfor ikke pushe dem til fut-infrastructure/spark-bi.

Kørsel på JupyterHub

Åben en ny terminal på JupyterHub
Hvis du ikke allerede har gjort det, så klon det nuværende repository (git clone https://github.com/fut-infrastructure/spark-bi/)
cd spark-bi
pip install -e .
Kontakt FUT-S/TRIFORK for at få log-in information til S3 (dataopbevaring). Kopiér example-reports/credentials_example.py til example-reports/credentials.py
Udfyld værdierne
Du er nu klar til at køre notebooks. Åben `

Kørsel lokalt

Kørsel lokalt kræver at der findes et delta-lake udtræk lokalt. Et test-udtræk med det rette skema kan rekvireres fra FUT-S/TRIFORK. Dataene skal placeres samme sted som i data_location.py, eller der skal rettes i denne fil.

Den nemmeste opsætning er med uv, den bedste package-manager til Python. Guide til opsætning her.

Kør uv sync i roden af projektet
Åben en notebook i VSCode
Tryk "run all"
Vælge "Python environments" -> Miljøet i den aktuelle mappe

Resultaterne dukker op.

FHIRPath

FHIRPath queries kan med fordel testes på en testresource på denne hjemmeside. Hvis FHIRPath-udtrykket bruger relevante funktioner, men f.eks. efterspørger en extension der ikke findes på ressorucen, vil Pathling blot returnere "None" som værdi.

Pathling har desuden en række eksempler i deres dokumentation.

Performance

Som udgangspunkt skalerer Spark selv antallet af cores og hukommelse of executors, hvis en query tager lang tid. Hvis der er brug for manuel kontrol, kan FutPathlingContext.create tage spark parametre:

spark.cores.max: hvor mange cores der kan allokeres til jobbet på tværs af executors (total cores)
spark.executor.cores: hvor mange cores der allokeres til hver executor (worker JVM)
spark.executor.memory: hvor meget hukommelse der allokeres til hver executor (worker JVM)

Sparks dokumentation giver et fint overblik over disse:

Data

Rapporterne her er kørt på data fra TRIFORKs testmiljø. Derfor afspejler resultaterne ikke produktion, og ser meget underlige ud.

Kommune

Det viser sig, at meget få episodes-of-care har en kommune tilknyttet på TRIFORKs testmiljø. Derfor bruges typisk patientens bopælskommune som proxy for e.g. en spørgeskemabesvarelses "kommune".

I produktion bør man overveje, om man vil bruge QuestionnaireResponse.episodeOfCare.managingOrganization.municipalityCode.

Organisatorisk enhed

Jeg er usikker på, om vi kan entydigt identificere organisatoriske enheder.

De organisatoriske enheder vil være repræsenterede som ehealth-organization, men en ehealth-organization er ikke opmærket med, hvilket niveau i SOR den afspejler.

En mulighed ville være at downloade hele SOR, finde kun de organisationer der har SOR-type == "Organisatorisk enhed", og så bruge dette til at filtrere. Det udskydes for nuværende.

Name		Name	Last commit message	Last commit date
Latest commit History 27 Commits
.github/workflows		.github/workflows
.vscode		.vscode
example-reports		example-reports
src/spark_bi		src/spark_bi
.gitignore		.gitignore
.python-version		.python-version
.ruff.toml		.ruff.toml
README.md		README.md
makefile		makefile
pyproject.toml		pyproject.toml
pyrightconfig.json		pyrightconfig.json
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Opsætning

Deling a Jupyter Notebooks

Kørsel på JupyterHub

Kørsel lokalt

FHIRPath

Performance

Data

Kommune

Organisatorisk enhed

About

Uh oh!

Releases

Packages

Languages

fut-infrastructure/spark-bi

Folders and files

Latest commit

History

Repository files navigation

Opsætning

Deling a Jupyter Notebooks

Kørsel på JupyterHub

Kørsel lokalt

FHIRPath

Performance

Data

Kommune

Organisatorisk enhed

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages