데이터 Jupyter Notebook에서 코드로 Markdown 작성 airguy2023-06-03 쥬피터 노트북에서는 분석한 내용을 설명하기 위한 마크업 언어로 markdown을 쓸 수...
데이터 GA4(Google Analytics)의 활성사용자를 BigQuery 데이터를 이용하여 뽑아보자. airguy2023-02-24 결론부터 기록하자면, GA4의 탐색이나 Data Report API를 통해서 구할 수 있는 "총 사용자,...
데이터 Google Analytics4 (GA4)와 연동된 BigQuery 데이터 파일 이벤트별 속성들을 모아보기 (pyspark 버전) airguy2022-09-23 Google Analytics가 Universal Analytics(UA, GA3)에서 GA4로 변경되면서 강조하는 특징 중제가 가장...
데이터 dataframe의 스키마를 이용해서 DDL문 만들기 airguy2022-09-02 종종 parquet파일을 전달받은 후 athena 혹은 다른 곳에 테이블을 생성해야 하는 경우가 있어...
데이터 AWS Athena에서 CTAS 및 dynamic partition insert 하기 airguy2022-08-24 원본 DB 테이블에서 데이터를 추스리거나 병합하여 새로운 테이블을 만드는 과정 중 많은...
데이터 SPARK를 HADOOP없이 클러스터로 구성해 보자 airguy2022-08-16 보통 SPARK와 HADOOP은 한 몸처럼 붙어 다니는데요. SPARK를 구동하기 위해서는1....
데이터 PySpark dataframe에서 UDF 사용하기 airguy2022-08-13 SPARK에서 dataframe을 다루다보면 종종 UDF(User Defined Functions)를 사용해야 하는 경우...