با رشد روزافزون مستندات متنی در وب، انتخاب اطلاعات مطلوب در زمان محدود کار مشکلي است. با استفاده از ابزارهایی نظیر خلاصهسازها، میتوان این حجم انبوه اطلاعات را با توليد خلاصه پیشنویس مدیریت نمود. روش خلاصهسازی پیشنهاد شده شامل سه مرحله پیشپردازش، پردازش و تولید خلاصه برای متون خبری میباشد.
۱- مرحله پیشپردازش مرحله پیشپردازش شامل قطعهبندی (تشخیص محدوده جملات و کلمات)، حذف ایستواژهها یا هرزواژهها، شناسایی مقادیر عددی و اسامی خاص، ریشهیابی با استفاده از استپ وان و استخراج اطلاعات معنایی مورد نیاز از فارسنت میباشد.
۲- مرحله پردازش در مرحله پردازش امتیاز ویژگی برای هر جمله ورودی با استفاده از هشت ویژگی ظاهری موجود در متن و امتیاز شباهت و ارتباط برای هر زوج جمله با اعمال اطلاعات استخراج شده از فارسنت محاسبه میگردند. سپس جملات در سه نوع خوشه اصلی حاوی جملات مشابه، جملات مرتبط و جملات هم وقوع خوشهبندی میشوند.
۳-مرحله نهایی در مرحله نهایی خلاصه با گزینش جملات از خوشهها به دو روش “امتیاز ویژگی” یا “تعداد جملات مشابه و مرتبط” تولید میشود.