ParsiLogo

امروزه موتورهای جستجو از ارکان اصلی توسعة فناوری ارتباطات و اطلاعات درکشورهای پیشرفتهبه حساب می‌آیند. در کشور ما نیز سامانة پارسی‌جو به عنوان اولین موتور جستجوی بومی کشوربا تلاشهایچهارسالةگروهبيست نفره از متخصصان ايرانيطراحی و پياده سازي شده است. هدف اصلی پارسی‌جوارائة سرويس جستجوی فارسی و دیگر سرویسهای بومی مبتنی بر وب به مردم ایران زمینمی‌باشد. پارسي جو يك موتور مستقل بوده و از هيچ موتور جستجوی ديگري استفاده نمي‌كند. در حال حاضر، پارسی‌جودر آدرس www.parsijoo.irقابل دسترس است.

HomePage

صفحة اول پارسی‌جو

اگرچه پارسی‌جو هم‌اکنون در مرحلة آزمایشی قرار دارد، لیکن در حال حاضر نیزبسیاری از قابلیتهای مهم آن توسط عموم مردم قابل استفادهاست.از مهمترین این قابلیتها می‌توان به موارد زیر اشاره نمود:

الف) امکان جستجوی متن در بیش از 200 ميليون صفحة وب فارسی

این صفحات وب از طریق گذرگاه رسمی شبکة کشور انتخاب شده‌اند، لذا دارای محتویات امن و مطمئن می‌باشند.پارسی‌جو مجهز به خطایاب و پردازشگر عبارات فارسی برای رفع خطاهای احتمالی در پرسشهای کاربران می‌باشد. در قسمت جستجوی وب می‌توان از شگردهای مختلفی نظیر نمایش آب و هوا و اوقات شرعی یک شهر در چند روز آیندهاستفاده نمود. بعلاوه، صفحة اول پارسی‌جو حاوی اطلاعات مفیدی در مورد تاریخ و ساعت، دما، اوقات شرعي و آب و هوای کنونی شهر می‌باشد. در نسخة آزمایشی فعلی، نتایج جستجو در بسیاری از پرسشهای کاربران قابل رقابت با موتورهای جستجوی برجسته نظیر گوگل و بینگ می‌باشد. بزودی، نسخة جدیدی از پارسی‌جو به بهره‌برداری می‌رسد که امکان جستجو در بیش از ۳۰۰ میلیون صفحه وب فارسی و در زمانی بسیار کوتاهتر را فراهم می‌سازد و در ضمن، کیفیت صفحات انتخابی نیز از نظر ارزش اطلاعاتی و رتبه‌بندی بهبود قابل توجهی یافته است.

 

WebSearch

جستجو در وب

WebSearchAboHava

استفاده از شگردهای جستجو (برای مثال، پیش‌بینی آب و هوای یک شهر در چند روز آینده)

ب) امکان جستجوی تصویر در بیش از ۱0 ميليون عکس

این تصاویر عمدتاً از صفحات وب فارسی استخراج شده‌اند و همانند جستجوی وب، سرویس جستجوی تصویر نیز تا حد امکان دارای محتویات امن و مطمئن می‌باشد. بزودی، پارسی‌جو قادر به جستجو در بیش از ۳۰ میلیون عکس موجود در وب خواهد بود.

HomePage

جستجو در تصاویر

ج) سرویس ترجمه

این سرویس قابلیت ترجمة دو زبانة متن از فارسی به انگلیسی، انگلیسی به فارسی و پینگلیش به فارسی را دارا می‌باشد. نسخة آزمایشی این سرویس به صورت روزانه در حال بهبود و بروزرسانی می‌باشد.

 

Translate

سرویس ترجمه

د) امکان جستجوی علمی در بیش از یک ميليون مقالة فارسی و دانلود آنها

ه) امکان جستجو و دانلود نرم افزار، بازی، فیلم و انیمیشن از سایتهای مجاز دانلود فارسی

گفتنی است نسخة موبایل پارسی‌جو نیز به بهره‌برداری رسیده است و تمام سرویسهای فوق به راحتی با استفاده از گوشی‌های هوشمند تلفن همراه و از طریق آدرس www.parsijoo.irدر دسترس می‌باشند.

معماري پارسي­جو

پارسي جو از سه بخش اصلي تشكيل شده است.

الف) خزشگر (crawler) :

 خزشگر پارسي‌جو که Parsijoo نام دارد به صورت هوشمند وب را پيمايش نموده و صفحات را جمع آوري مي­كند. در حال حاضر خزشگر پارسي‌جو، قادر به خزش دويست ميليون صفحه وب به صورت متوالي مي­باشد. نسخه جديد آن كه بزودي بر روي وب قرار مي­گيرد قادر است بيش از يك ميليارد صفحه وب را جمع­آوري كند. در اين بخش اسناد وب فارسي با یک سياست مناسب بر مبنای پوشش و تازگي از وب جمع‌آوري مي‌شو‌ند. يكي از مباحث مهم اين بخش كشف صفحات مهم فارسي مي‌شود كه این عمل با استفاده از الگوريتمي به نام FICA+ انجام مي‌گيرد. روش FICA+ كه توسط طراحان پارسي جو ارائه شده است صفحات مهم فارسي را با استفاده از روش يادگيري تقويتي كشف كرده و سپس بارگذاري مي‌كند.

 

ب) نمايه ساز:

در اين بخش متن خالص از اسنادفارسي (مانند  HTML، DOC و PDF) بارگذاري شده، توسط خزشگر استخراج شده و با توجه به خصوصيات زبان فارسي نرمال سازي شده و سپس عمل نمايه سازي انجام مي‌گيرد. در اين بخش از يك پردازشگر فارسي براي پردازش كلمات و عبارات فارسي استفاده مي­شود که اين پردازشگر قادر است عمليات فاصله گذاري و يكسان سازي كدينگ‌هاي استفاده شده را انجام دهد. همچنين تصاوير و بقيه اسناد در اين بخش پردازش مي­شوند. کل اين مجموعه عملیات بر روي يك بستر توزيع شده اجرا مي­گردد.

ج) بخش بازيابي و جستجو:

اين بخش كه به صورت برخط عمل مي كند و با كاربر در ارتباط است، در ابتدا پرس‌جو را از كاربر گرفته و پس از پردازش آن، اسناد مرتبط را از بخش نمايه‌ساز بازيابي مي‌كند. در نهايت اسناد با استفاده از روش‌هاي هوشمند رتبه بندي مانند الگوريتمهايA3Crank و DistnaceRankرتبه بندي گردیده و به كاربر ارائه مي شوند. اين دو الگوريتم نوین توسط تيم پارسی‌جو طراحی و ارائه شده‌اند. همچنين پردازشگر پرس‌وجوي اين بخش قادر است عمليات فاصله گذاري، يكسان سازي كدينگ‌ها، ر ?4 3< ?3 <@ ?3 <<