ثق في عينيك وما تراه على لوحة القيادة
في Wheely ، نعتمد بشكل كبير على البيانات لاتخاذ القرارات التشغيلية والاستراتيجية. من دفع المكافآت الأسبوعية للشركاء للتوسع في مدن ودول أخرى.
يعرف كل مدير أو مالك منتج منطقته عن كثب ويمكن لأي انحرافات أن تثير الأسئلة. لذلك ، يتم فرض متطلبات متزايدة على موثوقية لوحات المعلومات والمقاييس. ونحن في فريق التحليلات نسعى جاهدين لتحديد المشكلات وإصلاحها قبل الإبلاغ عنها.
كما تعلم ، من الأسهل منعه ، وبالتالي قررت التعامل مع المشكلة بطريقة منهجية واستباقية. وبطبيعة الحال ، كان أول شيء فعلته هو إنشاء قناة Slack ، حيث قمت بإعداد تسليم الإخطارات حول أي أخطاء في خطوط الأنابيب لدينا.
الثقة في أهمية مجموعات البيانات
, :
10
8
DWH
, QA :
,
:
.yml freshness:
freshness:
warn_after: {count: 4, period: hour}
error_after: {count: 8, period: hour}
loaded_at_field: "__etl_loaded_at"SQL-:
select
max({{ loaded_at_field }}) as max_loaded_at,
{{ current_timestamp() }} as snapshotted_at
from {{ source }}
where {{ filter }}:
, , :
(edge cases),
(bottleneck)
:
: , Out of Memory, Disk Full
SLA
:
, + ( )
CPU
- IO, network
.
:
,
:
+pre-hook: "{{ logging.log_model_start_event() }}"
+post-hook: "{{ logging.log_model_end_event() }}", , . - , , , , PRIMARY KEY, FOREIGN KEY, NOT NULL, UNIQUE.
DWH . . .. , .
:
(NULL) , ?
(UNIQUE ID )?
(PRIMARY - FOREIGN KEYS)?
, (ACCEPTED VALUES)?
QA :
,
:
.yml tests:
- name: dim_cars
description: Wheely partners cars.
columns:
- name: car_id
tests:
- not_null
- unique
- name: status
tests:
- not_null
- accepted_values:
values: ['deleted', 'unknown', 'active', 'end_of_life', 'pending', 'rejected'
, 'blocked', 'expired_docs', 'partner_blocked', 'new_partner'] SQL-
-- NOT NULL test
select count(*) as validation_errors
from "wheely"."dbt_test"."dim_cars"
where car_id is null
-- UNIQUE test
select count(*) as validation_errors
from (
select
car_id
from "wheely"."dbt_test"."dim_cars"
where car_id is not null
group by car_id
having count(*) > 1
) validation_errors
-- ACCEPTED VALUES test
with all_values as (
select distinct
status as value_field
from "wheely"."dbt_test"."dim_cars"
),
validation_errors as (
select
value_field
from all_values
where value_field not in (
'deleted','unknown','active','end_of_life','pending','rejected','blocked','expired_docs','partner_blocked','new_partner'
)
)
select count(*) as validation_errors
from validation_errors-
- - , . -, .
:
,
%
( ), .
QA :
, -.
:
SQL ,
SQL-
(PASSED) 0 , (FAILED) >= 1
Continuous Integration - DWH
, . DWH . . , , , PROD- PR Merge:
DEV- PROD-
(, Out of Memory)
- Continuous Integration (CI). !
:
master- PROD- DWH .
:
CI (, PROD-, 7 )
feature- master
- DWH
( ) :
DWH ,
(, , ) --
, , (, ).
:
, () .
, :
, : , , (, , ), (, , ).
,
DWH
drill-down :
, . , :
,
Continuous Integration and Testing
( )
, Wheely. , .
, , , «Data Engineer» OTUS, .
4 20:00 «Data Engineer». OTUS , .
:
Data Build Tool - DBT
How to get started with data testing - dbt discourse
Manual Work is a Bug - DRY