ขณะที่ผมกำลังเขียน blog entry นี้อยู่ กำลัง run program เพื่อกรองข้อมูลด้วยคำสั่ง grep ในภาษา Perl แต่ตัวข้อมูลนั้นมีขนาดใหญ่เดาว่า ตอนเขียน entry นี้เสร็จก็ยังไม่ได้ผลที่สมบูรณ์ การทำงานในลักษณะนี้มี framework ที่ช่วยทำให้มันเร็วขึ้น ด้วยการประมวลผลแบบขนาน พอนึกได้เลยรีบเอามาเขียนไว้ เผื่อจะกลับมาทำตอนมีเวลา framework ที่ว่าคือ MapReduce การใช้คำสั่ง grep จะทำการ match string ด้วย regular expression ลองนึกถึงไฟล์สองไฟล์ ไฟล์หนึ่งเก็บ key ที่เราต้องการใช้ match ไฟล์ที่สองเก็บ raw data ขนาดใหญ่ ผมอยากได้ผลของการ match key ในไฟล์ แรก กับ ข้อมูลในไฟล์ที่สอง ถ้าเขียนง่ายๆคงได้ประมาณนี้ ถ้าสามารถแบ่ง loop นี้ออกจากกัน อาจย่อยเป็นสัก 10 loop [...]
Posts Tagged ‘distributed processing’
Distributed Data Processing using MapReduce
Posted: เมษายน 4, 2009 in Parallel Processingป้ายกำกับ:distributed processing, grep, mapreduce, Parallel Processing
0




