Ambari #07 เปรียบเทียบความเร็วของการ Query ระหว่าง MySQL กับ Hive

Written by

Cloud Computing, Cluster & Load Balancing, Database

Post Views: 148

จากบทความก่อนหน้า

Ambari #05 การดึงข้อมูลเข้าจาก MySQL เข้าสู่ Hive ด้วย Sqoop ได้นำเข้าข้อมูล Mail Log จาก MySQL ซึ่งมีขนาด 27 GB มีข้อมูลประมาณ 12 ล้าน Record

ต่อไปจะเปรียบเทียบ การ Query ข้อมูลจาก Hive ซึ่งทำงานอยู่บน Hadoop Cluster กับ MySQL Server

Spec

MySQL Server: 1 Node x CPU 40 Core x RAM 8 GB

Hive: 7 Data Node x CPU 4 Core x RAM 4 GB

Query:

use mailscanner;
select from_domain,count(*) from maillog group by from_domain having from_domain like '%.com';

ซึ่ง from_domain เป็น Field ที่ไม่มีการทำ index

ผลการทดสอบ

MySQL: ใช้เวลา 5 นาที 23.90 วินาที = 329.90 วินาที

Hive: ใช้เวลา 92.754 วินาที

อนึ่ง : Hive ที่ใช้งานนั้น ทำงานบน Execution Engine ชื่อ Tez ซึ่งทำงานทั้งหมดบน Memory หากใช้งาน Hive ที่มากับ Apache โดยตรง จะใช้งาน MapReduce ซึ่งจะใช้เวลานานกว่ามาก (ยังไม่ได้ปรับแต่งให้ดีนัก)

แต่อย่างไรก็ดี Hive ไม่ได้ออกแบบมาใช้ทดแทน RDBMS เช่น MySQL/Oracle แต่เหมาะสำหรับการทำงานแบบ Data Warehouse มากกว่า ส่วนเหตุที่ MySQL แม้จะมีจำนวน Core มาก แต่ด้วยข้อจำกัด (โดย Default) ให้การ Group By นั้น จะใช้งานได้แค่ 1 Core เท่านั้น ! [1]

แต่เมื่อมองในมุมของ Hive สามารถนำเครื่องคอมพิวเตอร์ทั่วไป (Commodity Hardware) มารวมๆกันได้ ก็ทำให้สามารถขยายระบบได้แบบ Scale Out ก็น่าจะเป็นทางเลือกที่น่าสนใจ

Reference

[1] https://dev.mysql.com/doc/refman/5.5/en/innodb-performance-thread_concurrency.html

About The Author

kanakorn.h

See author's posts

Post Views: 148

ambari hive mysql tez

Ambari #07 เปรียบเทียบความเร็วของการ Query ระหว่าง MySQL กับ Hive

Spec

Query:

ผลการทดสอบ

About The Author

kanakorn.h

Comments

Leave a Reply Cancel reply

More posts

Library ที่ใช้ในการเชื่อมต่อ OpenID สำหรับภาษาต่างๆ

คู่มือการเชื่อมต่อ OpenID Connect ด้วย Pure PHP 2026

คู่มือการตั้งค่า OpenID สำหรับ WordPress

คู่มือการเชื่อมต่อ OpenID Connect กับ PSUSSO (Authentik)