زبان غیررسمی سبکی از زبان گفتاری یا نوشتاری است که در گفتگوهای روزمره، شبکه های اجتماعی، وب نوشت ها، رایانامه ها و پیامک ها استفاده می شود. نوشتار غیررسمی نسبت به نوشتار رسمی تفاوت هایی دارد که میزان این تفاوت در زبان های مختلف یکسان نیست. فارسی از جمله زبان هایی است که نوشتار رسمی و غیررسمی آن تفاوت های زیادی با هم دارند و با توجه به استفادۀ روزافزون از زبان محاوره در فضای مجازی، تولید ابزارهای پردازش متن برای آن ضروری به نظر می رسد.
در این راستا پیکرۀ پارس مپ متشکل از ۵۰،۰۰۰ جفت جمله با همترازی در سطح کلمه و عبارت در آزمایشگاه پردازش زبان دانشگاه شهید بهشتی ساخته شده است. تلاش سازندگان بر این بوده است که جملات انتخابی تا حد ممکن انواع تفاوت های نوشتار فارسی رسمی و غیررسمی را پوشش دهند، بنابراین برای گردآوری داده ها از دو روش جستجو در منابع مختلف زبان محاوره و همچنین دنبال کردن الگوهای تغییر صرفی و واجی برای یافتن نمونه های بیشتر استفاده شده است. پیکرۀ حاصل شامل ۵۳۰،۰۰۰ همترازی و همچنین یک فرهنگ حاوی ۴۹،۳۹۷ جفت کلمه و عبارت است. این پیکره می تواند منبع مفیدی برای زبان شناسان جهت استخراج دستور زبان و رسم الخط معیار برای فارسی محاوره باشد.
به منظور ساخت این پیکره تفاوت های زبانی میان نوشتار رسمی و محاوره در سطح نحو و واژگان بررسی شد. مقالۀ زیر به تشریح نتایج این پژوهش و همچنین جزئیات بیشتر در مورد ساخت پیکره می پردازد.
این مقاله در سی ویکمین همایش بین المللی زبان شناسی رایانشی در شهر ابوظبی، در کارگاهی ویژۀ پردازش خط عربی و فارسی ارائه شد.

Developing an Informal-Formal Persian Corpus: Highlighting the Differences between Two Writing Styles