В основном мы работаем в GCP, и наша основная команда по обработке данных работает над одним проектом, а наша команда — над другим проектом. Мне каждый день нужны новые данные из одной из таблиц для обработки статистики, но я не знаю, как использовать BigQueryToBigQuery в Airflow только для извлечения новых данных вместо копирования всей таблицы.
Заранее спасибо!
Решение проблемы
Попробуйте это, чтобы увидеть, работает ли это:
- Вы можете создать учетную запись службы в проекте, где существует таблица.
- Добавьте идентификатор, связанный с учетной записью службы, в свой проект в качестве пользователя.
- Создайте запланированный запрос, используя метод, указанный в документе https://cloud.google.com/bigquery/docs/scheduling-queries#setting_up_a_scheduled_query.
Ваш sql должен содержать код для получения дополнительных данных.
Это должно помочь
Еще один способ - получить доступ к таблице в другом проекте через представления. Теперь вы можете запросить представление, чтобы получить нужные данные. Кроме того, вы можете создать запланированный запрос, хранимую процедуру, если это необходимо. Это еще проще.
Комментариев нет:
Отправить комментарий