با رشد روزافزون مستندات متنی در وب، انتخاب اطلاعات مطلوب در زمان محدود کار مشکلي است. با استفاده از ابزارهایی نظیر خلاصه‌سازها، می‌توان این حجم انبوه اطلاعات را با توليد خلاصه پیش‌نویس‌ مدیریت نمود. روش خلاصه‌سازی پیشنهاد شده شامل سه مرحله پیش‌پردازش، پردازش و تولید خلاصه برای متون خبری می‌باشد.

۱- مرحله پیش‌پردازش مرحله پیش‌پردازش شامل قطعه‌بندی (تشخیص محدوده جملات و کلمات)، حذف ایست‌واژه‌ها یا هرزواژه‌ها، شناسایی مقادیر عددی و اسامی خاص، ریشه‌یابی با استفاده از استپ وان و استخراج اطلاعات معنایی مورد نیاز از فارس‌نت می‌باشد.

۲- مرحله پردازش در مرحله پردازش امتیاز ویژگی برای هر جمله ورودی با استفاده از هشت ویژگی ظاهری موجود در متن و امتیاز شباهت و ارتباط برای هر زوج جمله با اعمال اطلاعات استخراج شده از فارس‌نت محاسبه می‌گردند. سپس جملات در سه نوع خوشه اصلی‌ حاوی جملات مشابه، جملات مرتبط و جملات هم وقوع خوشه‌بندی می‌شوند.

۳-مرحله نهایی در مرحله نهایی خلاصه با گزینش جملات از خوشه‌ها به دو روش “امتیاز ویژگی” یا “تعداد جملات مشابه و مرتبط” تولید می‌شود.