데이터 엔지니어링

Elasticsearch를 활용한 데이터 검색 속도 최적화 – Part 2

지난 글에서 Elasticsearch에 대해 알아보았습니다. 이번 글에서는 BigQuery에 적재하고 있는 여러 마케팅 플랫폼의 성과 데이터를 웹서비스를 통해 실시간으로 제공해야 하는 상황에서, Elasticsearch 도입을 통해 수십 초에 달하던 응답 시간을 800ms로 단축시킨 사례를 공유드리겠습니다. 문제 상황 초기 아키텍처의 문제점 기존 시스템은 다음과 같은 구조로 운영되고 있었습니다. BigQuery (데이터 웨어하우스) -> MySQL […]

데이터 엔지니어링

Elasticsearch를 활용한 데이터 검색 속도 최적화 – Part 1

Elasticsearch Elasticsearch는 Apache Lucene 기반의 오픈소스 검색 및 분석 엔진입니다. 방대한 양의 데이터를 신속하게, 거의 실시간으로 저장, 검색, 분석할 수 있습니다.  기존의 관계형 데이터베이스가 다루기 어려웠던 비정형 데이터 검색, 특히 Full-text 검색에 매우 뛰어난 성능을 보입니다. Elasticsearch는 단순한 검색 엔진을 넘어, 로그 분석, 실시간 데이터 시각화, 비즈니스 인텔리전스 등 다양한 […]

데이터 엔지니어링

Databricks는 처음인 당신을 위한 안내서: Part 1

데이터 분야에 계신 분들이라면 Hadoop, Spark 같은 단어는 한 번쯤 들어보셨을 겁니다. 대용량 데이터를 처리하는 핵심 기술들이죠. 그런데 최근 들어 “데이터브릭스(Databricks)”라는 이름이 점점 더 많이 들려옵니다. “그거 그냥 클라우드에서 Spark 쓰게 해주는 서비스 아니야?” 라고 생각하셨다면, 오늘 이 글을 통해 그 생각이 완전히 바뀌실 거라 확신합니다. 오늘은 데이터 엔지니어의 시각에서, […]

데이터 엔지니어링

GCP Serverless로 데이터 파이프라인 구축하기 – Part 2

들어가며 GCP Serverless 서비들을를 활용한 데이터 파이프라인 구축 방법을 소개하겠습니다. 여러 GCP 서비스를 사용하여 유연하고 확장 가능한 데이터 파이프라인을 단계별로 구축해볼건데요. 이 방법을 통해 데이터 수집, 처리, 저장, 분석을 손쉽게 자동화하여 Serverless가 가진 장점을 모두가 경험해보았으면 좋겠습니다. GCP Serverless 서비스를 이용한 데이터 파이프라인 구축해보기 Serverless 서비스를 데이터 파이프라인 중간중간에 잘 […]

데이터 엔지니어링

GCP Serverless로 데이터 파이프라인 구축하기 – Part 1

들어가며 안녕하세요. NNT Tech 팀입니다. NNT Tech팀의 업무 중에는 고객사의 데이터를 수집한 뒤, 이를 목적에 맞게 처리하는 데이터 파이프라인 구축 작업이 있는데요. Google Cloud Platform의 Serverless 서비스를 이용해 통해 쉽고 빠르게 데이터 파이프라인을 구축하는 방법에 대해 소개해보고자 합니다. 왜 Serverless여야 하나요? Serverless가 무엇일까요? 클라우드 환경에서 Serverless는 기존의 VM 방식이 가진 […]

데이터 엔지니어링비즈니스 인텔리전스

마케팅 믹스 모델링(MMM)을 통한 예산 배분 최적화 전략

마케팅 믹스 모델링(Marketing Mix Modeling, MMM)은 빠르게 변화하는 마케팅 환경에서 소비자의 관심을 끌기 위한 경쟁이 치열해지는 가운데, 마케터들이 예산을 어디에 배분해야 최대의 효과를 얻을 수 있을지에 대한 답을 제시하는 중요한 분석 기법입니다. MMM은 다양한 마케팅 채널의 효과를 측정하고, 예산 배분의 최적화를 도와줍니다. 이 글에서는 MMM이 무엇인지, 왜 중요한지, 그리고 실제 […]

데이터 엔지니어링

Cloud Functions 2세대: Cloud Run functions로의 전환

들어가며 2024년 8월 21일, Google Cloud는 Cloud Functions를 Cloud Run Functions로 리브랜딩했습니다. 이는 단순한 이름 변경이 아닌, 서버리스 컴퓨팅 플랫폼의 큰 도약을 의미합니다. 자세한 내용은 Google Cloud 블로그에서 확인할 수 있습니다.  Cloud Functions 2세대 함수는 자동으로 Cloud Run Functions로 변환됩니다. 기존 함수 API, gcloud 명령 등에 대한 지원이 계속되기 때문에 […]

데이터 엔지니어링

GCP 비용 관리 및 최적화: 효과적인 클라우드 비용 관리 방법

들어가며 Google Cloud Platform(GCP)은 강력하고 유연한 클라우드 환경을 제공하지만, 잘못 관리하면 예상치 못한 높은 GCP 비용이 발생할 수 있습니다. 클라우드 환경에서 비용 관리와 최적화는 효율적인 운영의 핵심입니다. 이 글에서는 GCP에서 비용을 절감하고 안전하게 관리하기 위한 구체적인 전략과 팁을 소개하겠습니다. 비용 관리의 기초: 모니터링과 예산 설정 1. Billing Reports를 활용한 모니터링 […]

데이터 엔지니어링

BigQuery: 사용자를 위한 운영 및 관리 가이드

들어가며 BigQuery는 GCP(Google Cloud Platform)에서 제공하는 완전 관리형 엔터프라이즈 데이터 웨어하우스로, 대규모 데이터 분석을 수행할 수 있도록 설계되어있습니다. BigQuery는 데이터 처리량에 따라 과금이 부과되는 주문형 컴퓨팅 가격 요금제와일정한 예산 설정이 가능한 용량 컴퓨팅 가격 요금제를 제공하고 있습니다. 특히 사용량 기반 요금제의 경우, 관리와 최적화를 소홀히 할 경우 불필요한 비용이 발생할 […]

데이터 엔지니어링

Snowflake: 데이터 엔지니어를 위한 데이터 웨어하우징 솔루션

들어가며 데이터 엔지니어링의 세계는 빠르게 변화하고 있으며, 다양한 데이터 소스와 방대한 데이터 양을 효율적으로 관리하고 분석할 수 있는 도구의 필요성이 날로 커지고 있습니다. 이러한 요구를 충족시키기 위해 등장한 솔루션 중 하나가 Snowflake입니다. 본 글에서는 Snowflake의 주요 기능과 데이터 엔지니어가 이를 어떻게 활용할 수 있는지, 그리고 비용 구조에 대해 자세히 살펴보겠습니다. […]