Introduction and configuring Oracle Data Integrator for Big Data (Cloudera Hadoop)

imageApache Hadoop is designed to handle and process data that is typically from data sources that are non-relational and data volumes that are beyond what is handled by relational databases.

Oracle Data Integrator is a transparent and heterogeneous Big Data Integration technology based on an open and lightweight ELT architecture. It runs a diverse set of workloads, including Spark, Spark Streaming and Pig transformations, to enable customers solve their most complex and time sensitive data transformation and data movement challenges. It is a core component of Oracle Data Integration solutions, integrating seamlessly with the rest of Oracle’s Data Integration and Business Application solutions

Oracle Data Integrator for Big Data provides the following benefits to customers:

  • It brings expanded connectivity to various Big Data source such as Apache Kafka or Cassandra
  • It decreases time to value for Big Data projects
  • It provides a future proof Big Data Integration technology investment
  • It streamlines and shortens the Big Data development and implementation process

Currently ODI supports

  • Generation of Pig Latin transformations: users can choose Pig Latin as their transformation language and execution engine for ODI mappings. Apache Pig is a platform for analyzing large data sets in Hadoop and uses the high-level language Pig Latin for expressing data analysis programs.
  • Generation of Spark and Spark Streaming transformations: ODI mappings can also generate PySpark. Apache Spark is a transformation engine for large-scale data processing. It provides fast in-memory processing of large data sets. Custom PySpark code can be added through user-defined functions or the table function component.
  • Orchestration of ODI Jobs using Oozie: users have a choice between using the traditional ODI Agent or Apache Oozie as orchestration engines for jobs such as mappings, packages, scenarios, or procedures. Apache Oozie allows fully native execution on Hadoop infrastructures without installing an ODI agent for orchestration. Users can utilize Oozie tooling to schedule, manage, and monitor ODI jobs. ODI uses Oozie’s native actions to execute Hadoop processes and conditional branching logic

You can use Oracle Data Integrator to design the ‘what’ of an integration flow and assign knowledge modules to define the ‘how’ of the flow in an extensible range of mechanisms. The ‘how’ is whether it is Oracle, Teradata, Hive, Spark, Pig, etc.

Let’s configure Oracle Data Integrator for Cloudera Hadoop. You don’t need to install any components on your Hadoop Cluster. It is enough to have remote connection to manage all jobs on Hadoop.

Continue reading ‘Introduction and configuring Oracle Data Integrator for Big Data (Cloudera Hadoop)’ »

Oracle BigData Lite VM introduction

imageVirtual Machine Oracle BigData Lite is vm created by Oracle for development and demo purposes of BigData (Cloudera) and Oracle technologies working together.

You can download BigData Lite VM from Oracle site. This vm includes following software (for vm version 4.4):

Continue reading ‘Oracle BigData Lite VM introduction’ »

Configuring GoldenGate agent for ODI and Enterprise Manager (version 12.2)

Core GoldenGate is software completely written in C/C++. But many Oracle tools are written using Java. For example, Enterprise Manager and GoldenGate Monitor. ETL tool Oracle Data Integrator was also developed using Java. All these tools work with GoldenGate and communications should be secured: there should be authentication, encryption, etc.

Oracle uses special agent to make these communications possible. We call these agent imageGoldenGate Agent (previously it was called JAgent). If will look at GoldenGate 11.2 or 12.1 then we see this agent is embedded: there are folders cfg and dirjar in GoldenGate Home. First folder contains GoldenGate configuration, the second one contains java libraries (jar) for GoldenGate agent execution.

There were some limitation of embedded agent: you couldn’t create multiple agents (for OEM and GG Monitor), you must remove old agent and add new one to make communications with server (Monitor or OEM) more stable. Oracle has removed GoldenGate Monitor from core GoldenGate 12.2 installation to overcome these limitations. So we should install GoldenGate Agent before configuring communications with OEM and ODI. Unfortunately GoldenGate Agent documentation is a little bit poor. So am writing this article to compensate this issue.

Continue reading ‘Configuring GoldenGate agent for ODI and Enterprise Manager (version 12.2)’ »

Веб-семинар по GoldenGate 6 февраля 2015 в 11:00

imageOracle приглашает на бесплатный вебинар по продуктам интеграции данных Oracle. Вебинар будет проходить 6 февраля 2015 в 11:00 по Московскому времени.

В рамках веб-семинара будет возможность получить общие знания по функционалу и настройке продуктов, а так же основные аспекты их применения для решения задач бизнеса. Пожалуйста, приглашайте ваших коллег, которым будет интересно данное мероприятие.

Программа семинара:

11:00-11:40 Обзор решений Oracle по интеграции данных (ODI, EDQ, OEMM). Типовая архитектура Oracle для управления информацией.
11:40-12:40 Основы работы GoldenGate
12:40-14:00 Установка и настройка GoldenGate для различных СУБД, JMS-очередей, BigData и плоских файлов

Для регистрации на семинар необходимо щелкнув по ссылке зарегистрироваться, либо написать письмо с заголовком «I Am Confirming My Attendance On DIS webinar On 06.02.15» на адреса daria.aleshkova@oracle.com и alexander.ryndin@oracle.com.

Oracle Enterprise Metadata Management (OEMM): обзор и инсталляция

Обзор

В последнее время необходимость управления метаданными становится очевидной задачей во все большем количестве крупных компаний. Почти все компоненты современных информационных технологий (CASE средства, ETL, хранилища данных, BI, EAI содержат метаданные. Эти метаданные распределены, часто дублируют друг друга, меняются со временем, зависят от используемой методологии и технологий, в которых они используются.

Особенно остро проблема управления метаданными встает в компаниях, использующих инструменты от разных вендоров. В этом случае отсутствует единое представление движения данных в компании. Что влечет за собой дублирование данных (разные команды не знаю об уже существующих в хранилище данных), сложность определения источника некачественных данных (причиной ошибки в отчете может быть как ошибка в BI, так и в ETL) и, как следствие, общее недоверие бизнес-пользователей к аналитике.

Oracle Enterprise Metadata Management (OMM) обеспечивает следующие возможности по управлению метаданными:

  • Data Governance
  • Аннотирование и комментирование метаданных
  • Сравнение, интеграцию и маппинг метаданных
  • Версионирование и управление конфигурацией
  • Управление жизненным циклом метаданных
  • Lineage и impact analysis

Continue reading ‘Oracle Enterprise Metadata Management (OEMM): обзор и инсталляция’ »

Бесплатный мастер-класс по технологиям интеграции данных 25 февраля с 13:00 до 19:00 в Москве

image002 

На семинаре будут рассмотрены следующие темы

  • Экономический эффект от внедрения платформы интеграции данных для конкретных индустрий
  • Влияние роста объемов данных и количества источников на ИТ-инфраструктуру
  • Анализ типичных внедрений и основные проблемы, которые мы видели в организациях при реализации единого подхода к перемещению/обмену/интеграции данных в масштабе предприятия
  • Обзор и демонстрация технологий
  • Использование технологий интеграции данных в современной IT архитектуре: BigData, InMemory, Real-time и Mobile Apps

 

Continue reading ‘Бесплатный мастер-класс по технологиям интеграции данных 25 февраля с 13:00 до 19:00 в Москве’ »

Использование GoldenGate в Oracle Data Integrator 12c

image Одним из крупных нововведений Oracle Data Integrator 12c является более тесная интеграция с GoldenGate:

  • Oracle GoldenGate теперь описывается как сервер данных в топологии. Процессы extract и replicat описываются с помощью физических и логических схем. Такая конфигурация позволяет использовать стандартные подходы ODI по отделению непосредственно проектирования в логических терминах от физического размещения
  • Большинство параметров GoldenGate Extract и Replicat могут быть настроены в рамках конфигурирования физической схемы.
  • Один и тот же mapping может быть использован для пакетной и CDC загрузки
  • Файлы параметров GoldenGate могут быть автоматически загружены в GoldenGate, а соответствующие процессы стартованы. Достигается это за счет использования технологии JAgent.

В этой статье я рассмотрю совместное конфигурирование ODI и GoldenGate для инкрементального обновления хранилища в режиме, близком к реальному времени.

Continue reading ‘Использование GoldenGate в Oracle Data Integrator 12c’ »