Data

สรุปเข้าใจง่าย Hyperspace สำหรับ Apache Spark

เรื่องที่เกี่ยวข้อง - Apache Spark, Data, Hyperspace, Microsoft Open-source

Hyperspace นั้นเป็นเครื่องมือที่จะทำให้การค้นหาข้อมูลที่อยู่บน Azure Data Lake สามารถทำได้ง่าย และมีประสิทธิภาพสูงมากๆ

แถมรองรับหลายภาษาด้วย เช่น

  • Python
  • Scala
  • .NET

เราสามารถใช้ Hyperspace กับ Dataset ที่เรามี ไม่ว่าจะเป็นข้อมูลแบบ CSV, JSON, Parquet ซึ่งพอนำมาใช้งาน เราจะสามารถทำสิ่งที่เรียกว่า indexing กับข้อมูลพวกนี้ได้เหมือนกับระบบฐานข้อมูลที่เรารู้จักกันดี

ซึ่งการทำแบบนี้เหมือนเรามีการสร้าง index layer ขึ้นมาอีกชั้นหนึ่ง เหมือนภาพด้านล่าง

และถ้าข้อมูลใน Data Lake มีการเปลี่ยนแปลง เราก็แค่ refresh ตัว index อีกรอบเพื่อให้มันอ่านข้อมูลใหม่นั่นเองครับ

วิธีการใช้งาน

การเรียกใช้ Hyperspace ก็จะตรงไปตรงมาเหมือน library อื่นๆ เลย เช่นถ้าเราใช้ภาษา Python

from hyperspace import *  
from com.microsoft.hyperspace import *
from com.microsoft.hyperspace.index import *

# สร้าง instance ของ Hyperspace
hyperspace = Hyperspace(spark)

# สร้าง indexes: กำหนดชื่อ, ชื่อของคอลัมภ์ที่จะทำ index และชื่อของ included columns
indexConfigUsers = IndexConfig("indexUser", ["userId"], ["FullName"])

hyperspace.createIndex(aDataframe, indexConfigUsers)            # only create index once
hyperspace.indexes().show()

ถ้าสนใจ ไปลองเอามาใช้งานได้ ฟรี เป็น opensource ของ Microsoft โดยตรงครับ

GitHub – microsoft/hyperspace: An open source indexing subsystem that brings index-based query acceleration to Apache Spark™ and big data workloads.

เริ่มต้นยุค AI ด้วยคอร์สฟรี และพรีเมี่ยม กับพล

หากชอบสิ่งที่พลเล่า เรื่องที่พลสอน สามารถสนับสนุนพลโดยการเข้าเรียนคอร์สออนไลน์ของพลนะคร้าบ

  • เข้าใจง่าย ใช้ได้จริง ออกแบบการสอนอย่างเข้าใจโดยโค้ชพล
  • มีคอร์สสำหรับคนใช้งานทั่วไป จนถึงเรียนรู้เพื่อใช้งานในสายอาชีพขั้นสูง
  • ทุกคอร์สมีใบประกาศณียบัตรรับรองหลังเรียนจบ

เราใช้คุกกี้เพื่อพัฒนาประสิทธิภาพ และประสบการณ์ที่ดีในการใช้เว็บไซต์ของคุณ คุณสามารถศึกษารายละเอียดได้ที่ นโยบายความเป็นส่วนตัว และสามารถจัดการความเป็นส่วนตัวเองได้ของคุณได้เองโดยคลิกที่ ตั้งค่า

Privacy Preferences

คุณสามารถเลือกการตั้งค่าคุกกี้โดยเปิด/ปิด คุกกี้ในแต่ละประเภทได้ตามความต้องการ ยกเว้น คุกกี้ที่จำเป็น

Allow All
Manage Consent Preferences
  • Always Active

Save